
Hadoop
vkingnew
Learning......
-
原创 windows 安装部署influxdb
下载软件:https://dl.influxdata.com/influxdb/releases/influxdb-1.8.4_windows_amd64.zip2.0版本的暂时么有windows版本解压到相应的文件设置环境变量:C:\dev\influxdb-1.8.4-1C:\dev\influxdb-1.8.4-1>influxd.exe 8888888 .d888 888 8888888b. 888888b..2021-02-05 11:20:2232
0
-
原创 InfluxDB 概述
什么是时序数据库按照时间顺序,设备状态的变化数据依时间顺序记录的数据库。Time series DB比如CPU的利用率,某一时间的环境温度等,时序数据是以时间作为主要的查询维度,通常会将连续的多个时序数据绘制成线,制作基于时间的多维度报表,用于揭示数据背后的趋势,规律和异常,进行实时在线的预测和预警。时序数据普遍存储在IT,devops,物联网,车联网等系统。时序数据具有以下三个特点:数据是随着时间追加的,无更新数据数据通常按照时间顺序抵达时间是一个主要的坐标轴...2021-02-05 11:00:4170
0
-
原创 Impala 设计指导
物理硬件schema:impala-shell -i localhost --quiet参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_schema_design.html2020-12-09 16:29:5427
0
-
原创 Cloudera CDP 7 版本以及软件依赖
目录版本概述:Cloudera 7.1.4版本的软件版本:各个软件的依赖关系如下:版本差异:版本概述:在进入到CDH 7版本之后 Cloudera发布了两个发型包,一个用于运行在云上的(CDP public cloud),一个是客户自己安装的(CDP Data Center)。在2020年9月24日 之后CDP Data Center 改名为CDP Private CloudWith the recent launch of CDP Private Cloud f...2020-11-23 21:17:34719
0
-
原创 Cloudera CDP 7 中不支持的Hive 3 的功能
Cloudera 7中的Hive不支持的接口和功能:Unsupported InterfacesDruidHcat CLIHive CLI (replaced by Beeline)Hive ViewLLAP (available in CDP Public Cloud only)MapReduce execution engine (replaced by Tez)PigS3 (available in CDP Public Cloud only)Spark executi...2020-11-23 12:13:16155
0
-
原创 Impala HA
Impala的高可用:1.Haproxy2.nginx参考:http://impala.apache.org/docs/build/html/topics/impala_proxy.htmlhttps://blog.csdn.net/abyslll/article/details/88019310https://blog.csdn.net/lvtula/article/details/898861572020-11-23 12:04:5960
0
-
原创 Impala 端口列表
Scope / Role Startup Flag Default Port CommentImpala Daemon --beeswax_port 21000 Port on which Beeswax client requests are served by Impala Daemons.Impala Daemon --hs2_port 21050 Port on which HiveServer2 client requests are served by Impala Daemons.Im.2020-11-23 11:39:4263
0
-
原创 Impala JOIN语句
支持的JOIN列表:Self-joinsInner joinsOuter joinsEquijoins and Non-EquijoinsSemi-joins:Anti-joins不支持的JOIN:不支持的JOIN:Natural joins原因: Impala不支持自然连接运算符,这是为了避免不一致或庞大的结果集。自然连接去掉了ON和USING子句,而是自动连接左表和右表中具有相同名称的所有列。对于快速发展的数据结构(如Hadoop中通常使用的数据结构),不建2020-11-23 11:31:30168
0
-
原创 Impala 3.2 版本以来的新特性
impala 和CDH的版本:CDH 6.3.2 impala 3.2CDP 7.1.x Impala 3.4impala 3.4 将适Impala 3版本的最后一个版本,此后社区的重点将是Impala 4 版本Impala 4 新特性:1.删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持2.执行实例支持多线程计算Impala在IO层是多线程的,每个executor(impalad)多线程地从多个磁盘以及网络读取数据..2020-11-23 10:47:28408
0
-
原创 Cloudera CDH 常见的版本
7.1.4 7.1.3 7.1.2 7.1.1 7.0.3 6.3.2 5.16.2 2020/10/14 2020/8/10 2020/6/4 2019/11/24 2019/11/12 2019/6/18 Component Version Version Version Version Version Version Ve...2020-11-20 22:39:09583
3
-
原创 Impala 性能调优和设计
优化思路:Impala中,提供了10大类优化思路和方法:1.分区2.连接查询性能考虑3.表和列信息统计4.Impala性能测试:5.基准Impala查询:6. 控制Impala的资源使用情况:7.使用Impala查询Amazon S3的文件系统。8.HDFS缓存9.执行计划和查询概况10. 数据块倾斜表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有2020-11-19 19:40:04196
0
-
原创 Impala SQL的迁移
基于 impala 3.2 版本从其他的数据库系统中迁移需要考虑如下几个方面:1.DDL和DML语句的迁移2.数据类型的适配3.SQL语句的适配4.SQL结构的双检5.SQL语句和语法的验证参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_porting.htmlhttp://impala.apache.org/docs/build3x/html/topics/..2020-11-19 17:47:35164
0
-
原创 Impala 数值函数
1.求绝对值 ,正值,负值:ABS(numeric_type a)POSITIVE(numeric_type a)NEGATIVE(numeric_type a)NEGATIVE 等同于 -abs(a)POSITIVE 等同于 abs()2.求余数,求商:QUOTIENT(BIGINT numerator, BIGINT denominator), QUOTIENT(DOUBLE numerator, DOUBLE denominator)FMOD(DOUBLE a, DOUBL2020-11-19 17:13:04297
0
-
原创 大数据性能测试介绍
大数据性能测试的目的1.大数据组件的性能回归,在版本升级的时候,进行新旧版本的性能比对2.在新版本/新的生产环境 发布之后获取性能基线,建立可度量的参考标准,为其他测试场景或者调优过程提供对比参考3.在众多的发行版本中进行测试比对,为PoC测试提供参考数据4.支持POC测试,得出结论,到时候可以根据业务模型和需求,或者根据客户需求 选择不同的方案。5.在客户方进行性能测试,达到客户要求的性能标准满足客户使用的需求。性能测试的时机:1.上线新版本2.上线新的环境/新的主机3.开2020-11-19 10:11:59223
3
-
原创 Impala 条件函数
支持的条件函数列表:CASECASE2COALESCEDECODEIFIFNULLISFALSEISNOTFALSEISNOTTRUEISNULLISTRUENONNULLVALUENULLIFNULLIFZERONULLVALUENVLNVL2ZEROIFNULL1.条件判断2.NULL处理3.TRUE FALSE 处理4.NULL ZERO处理参考:http://impala.apache.org/docs/build/html/topic.2020-11-19 00:40:06181
0
-
原创 Impala JSON函数
在impala 6.3 版本中加入JSON解析函数,此前的版本则没有提供JSON解析函数需要自己编译安装。The following characters are supported in the selector JSON path:$ : Denotes the root object. : Denotes the child operator[] : Denotes the subscript operator for array* : Denotes the wildcard for2020-11-19 00:30:41401
0
-
原创 Impala 字符串函数详解
impala 3.2版本参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_string_functions.htmlhttp://impala.apache.org/docs/build/html/topics/impala_string_functions.html#string_functions__ascii2020-11-19 00:17:42803
0
-
原创 Impala 日期时间函数详解
基于impala 3.2 版本时间的基本单元 time_unityear 年month 月week 周day 日hour 小时minute 分钟 秒 second毫秒 Millisecond (us) 0.0001 s 1/10^3 s微妙 Microsecond (μs) 0.000001 s 1/10^6 s纳秒 Nanosecond (ns) 0.000000001 s 1/10^9 s 此外还有一些时间单元季度 qu.2020-11-18 22:31:13672
0
-
原创 Impala 日期操作相关
获取指定日期的周初和周末:select date_sub(now(),dayofweek(now())-1-1) weekstart,date_sub(now(),dayofweek(now())-1-7) weekend;-- 时间戳取整Impala 2.11 之前的取整当前时间的写法:select trunc(now(), 'YEAR') --取整到年份, 得到当年 1 月 1 日 0 点 0 分select trunc(now(), 'MONTH') --取整到月份, 得到当月 12020-09-08 17:54:09156
0
-
原创 Sqoop 1.4.7 数据导入导出 HDFS MySQL
运行环境:CentOS 7.6Hadoop 2.7.7Hive 1.2.2sqoop 1.4.7MySQL 5.7.28注释:由于sqoop 1.4.6 是基于hbase 早期版本和centos6编译开发,可能存在不兼容性。安装步骤:前置条件:需要启动hadoop的DFS和yarn服务下载MySQL官方自带的示例数据包:https://downloads....2019-11-08 20:14:15214
0
-
原创 impala 报错: MANUAL_FLUSH is enabled but the buffer is too big
报错信息:MANUAL_FLUSH is enabled but the buffer is too big2019-04-30 23:36:18563
1
-
原创 Apache Hive 3.1单机安装部署
软件列表:CentOS 7.5Hadoop 3.2Hive 3.1.1MySQL 5.7.25第一部分:准备主机0.前置条件:0.1 配制SSH:# ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa)...2019-04-18 22:07:58504
0
-
原创 impala 和python的交互
--前提条件:# yum -y install python-devel gcc-c++ python-pip python gcc告警:The required version of setuptools (>=3.4.4) is not available, and can't be installed while this script is running. Pl...2019-04-07 19:14:52580
0
-
原创 Impala 可视化工具datagrip
概述:impala 官方提供了JDBC驱动,理论上可以识别jdbc驱动的客户端工具都可以连接到impala数据库。当然hive一样的,Datagrip 自2019.1版本已经官方支持了Hive数据库。其他可选的客户端有:oracle 的sql developer开源的:Dbvisualizer Dbeaver 他们的连接方式与此类似。下载驱动程序:https://www...2019-04-10 12:55:185944
5
-
原创 数据库的与Hadoop生态的同步
Hadoop生态中负责存储的有Hbase、kudu,负责计算的有impala和hive源库实时流同步的:streamsets:利用MySQL的binlog、mongoDB的oplog和oracle、SQL server的CDC功能将数据近实时的同步到目标存储上,如kudu和hbase上。上有开源的apache Nifi开源的kettle工具:...2019-05-05 12:10:52246
0
-
原创 数据库与clickhouse的同步
mysqlkafkaclickhouse支持存储引擎为MySQL和kafka.其他的关系型数据库如oracle、SQL server、postgresql、mysql和MongoDB都可以通过将信息发送到kafka,进而和Clickhouse进行数据接入.可选的有数据抽取工具有:logstashdeebeezium...2019-05-05 12:42:463884
0
-
原创 impala 报错value too large for column 'xxx' (70787 bytes, maximum is 65536 bytes)
报错信息:Pipeline Status: RUNNING_ERROR: com.streamsets.pipeline.api.StageException: KUDU_03 - Errors while interacting with Kudu: Row error for primary key="c42f76aec336497e8a2691d8a6f96f76", tablet=n...2019-05-21 14:22:181145
2
-
原创 sqoop 导入MySQL数据到Hive
注意:部署sqoop和hive的时候,需要将hive和sqoop部署到同一节点上。不然使用sqoop导入数据的时候会报错。错误示例如下:Database Class Loader started - derby.database.classpath=''19/05/28 14:37:16 ERROR bonecp.BoneCP: Unable to start/stop JMXjava....2019-05-27 15:27:37846
0
-
原创 sqoop 导入SQL server数据到Hive
脚本:#!/bin/bash#Set the RDBMS topic name as bash's first params#Set the RDBMS table name as bash's second paramsecho "<----------------Import topic name is [$1]---------------->"echo "...2019-05-27 15:52:571236
0
-
原创 sqoop 1.4 将MySQL的tinyint类型转为hdfs的bool类型
mysql数据库里面的字段是 tinyint 类型 通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyI...2019-05-30 11:17:2474
0
-
原创 Impala 日期格式化
select version(); +-----------------------------------------------------------------------------------------+| version() ...2019-06-14 09:30:2310311
0
-
原创 Impala 路径跟踪分析
-- 历史表:select count(*) uv, multi_path from yjp_trace.yjp_dm_trace_session_common_day,yjp_trace.yjp_dim_trace_multi_path where page_codes rlike multi_path and path_id='0018e9e50d28449db86999fc...2019-06-27 17:36:56369
0