2017年11月_yunhao.wei

原创 impala自定义udf函数

查看内置的函数： show functions in _impala_builtins; show functions in _impala_builtins like ‘subs‘;查看自定义函数： show functions自定义函数： [hadoop06.xqtravel.com:21000] > create function statistics_client(string) r

2017-11-07 17:41:00 2464

1、尽量少使用 invalidate metadata，尽量用REFRESH TABLE_NAME;2、set APPX_COUNT_DISTINCT=true 与 ndv 函数是一样的，都只是估值3、impala不支持hive的udtf函数，仅仅支持udf函数（java、c++），udaf（c++）4、当前的hive接收和返回timestamp类型的字段，不支持5、impala的文字格式，必须指定

2017-11-07 17:38:00 3961

原创 impala-shell用法

[root@hadoop06 ~]# impala-shell -h -h：查看命令用法 -i ：指定daemon的地址 -q：指定查询的sql语句 -B：格式化输出* 大量数据加入格式化，性能受到影响 –output_delimiter=character （指定分隔符与其他命令整合，默认是\t分割） –print_header 打印列名（去格式化，但是显示列名字，默认不打印）

2017-11-07 17:34:22 885

原创 kudu和hbase的区别和联系

前提hbase的物理模型是master和regionserver，regionserver存储的是region，region里边很有很多store，一个store对应一个列簇，一个store中有一个memstore和多个storefile，store的底层是hfile，hfile是hadoop的二进制文件，其中HFile和HLog是hbase两大文件存储格式，HFile用于存储数据，HLog...

2017-11-07 17:32:18 17882 3

原创 kudu读写流程

当创建Kudu客户端时，其会从主master上获取tablet位置信息，然后直接与服务于该tablet的服务器进行交谈。为了优化读取和写入路径，客户端将保留该信息的本地缓存，以防止他们在每个请求时需要查询主机的tablet位置信息。随着时间的推移，客户端的缓存可能会变得过时，并且当写入被发送到不是领导者的tablet服务器时，则将被拒绝。然后，客户端将通过查询主服务器发现新领导者的位置来更新其缓存

2017-11-07 17:30:26 3256

原创 kudu报错解决

错误一：解决办法：1.4.0版本，因为master的元数据全部在本地磁盘文件，如果额外的添加了一个master，会报错，找不到consensus-meta,也就是master的容错机制，需要对数据格式化错误二：impala中创建使用kudu存储，但是client端读取数据，读取不出来。错误三： [New I/O worker #1] WARN org.apa

2017-11-07 17:15:41 12864 18

原创 kudu和kudu-impala的安装流程

安装apache的kudu第一步：下载rpm包http://archive.cloudera.com/kudu/redhat/6/x86_64/kudu/5.11.0/RPMS/x86_64/第二步：安装rpm包[root@hadoop5 kudu]# yum -y install cyrus-sasl-plain lsb ntp[root@hadoop5 kudu]...

2017-11-07 17:10:31 8778 11