hive
文章平均质量分 82
tomson8975
这个作者很懒,什么都没留下…
展开
-
Hive0.14在left outer join多级连接中,执行计划生成BUG记录
前言: 这几天遇到一个很诡异的问题,一个三级left outer join的句子,在hive0.9和0.14上的执行结果会不一样。 而且在0.14上通过转换右表连接的顺序可以达到正确输出的目的,但是其中是为什么却不得而知,情况非常 诡异,猜测是编译器编译执行计划有问题!(所谓转换右表连接顺序是指把A left outer join原创 2015-08-08 21:59:03 · 737 阅读 · 0 评论 -
Tez上线部署记录
前言: Tez在Hive 0.13.0版本引入,全称Hive on Tez。顾名思义就是基于Tez之上的运行Hive作业的形式。具体Tez是什么?Tez是一种运算框架,MapReduce是一种运算框架,这么说应该懂了。更具体的讲,Tez是一种内存运算框架,类似Spark的核心——RDD。 正如刚才提到的Tez类似RDD的特性,适用于DAG运算,多原创 2016-07-29 13:59:25 · 2671 阅读 · 0 评论 -
Hive HBase集成
1.版本 hive0.14 hbase0.99.22.编译 由于hive0.14版本不支持hbase0.99.2,所以需要对hive源码中的hbase-handler模块中的相关类做修改,重新编译。2.1 修改 /hbase-handler/src/java/org/apache/hadoop/hive/hbase/HBaseStorage原创 2015-10-28 10:33:50 · 519 阅读 · 0 评论 -
where top1000(X)<=10等条件谓词提前问题记录
今天,遇到这样一个问题,在下面sql中:add jar /opt/hadoop/yuanfeng/bdiudf.jar; create temporary function top1000 as 'com.bfd.id.Id'; select a.state_date,a.customer,原创 2015-10-28 10:40:32 · 652 阅读 · 0 评论 -
UDFJson反斜杠解析出错记录
这个类在org.apache.hadoop.hive.ql.udf包 下,使用org.codehaus.jackson三方库解析Json字符串。具体在Hive udf中的名字叫get_json_object。 当json字符串中有反斜杠"\"时,解析会出错如:{"title":"思科Q4收入估$79.2亿 前景阴云笼罩","ItemType":"NewsBa原创 2015-10-28 10:39:50 · 1000 阅读 · 0 评论 -
Hive参数配置以及HQL编写技巧
前言本文的意图在于根据常见hive作业运行场景,介绍hive以及hadoop的参数设置方法。 Group by数据倾斜: 如果需要group by的字段有一个值或一些值出现的频率很高: 可以用hive.groupby.skewindata参数平衡数据。 Map,Reduce数控制:原创 2015-10-28 10:38:22 · 1109 阅读 · 0 评论 -
Hiveserver2配置及优化
先简单介绍下HS1和HS2的主要区别: HiveServer1: 可以看到HS的进程和MetaStore的进程是在一个虚拟机里面的,而且从图中可以看出,一个HS服务同时只能提供一个访问连接。 HiveServer2: H原创 2015-10-28 10:34:45 · 7671 阅读 · 0 评论 -
Hive配置优化
MapJoin基本的几种方式: Common Mapjoin: hive.ignore.mapjoin.hint=true;#虽然现在可以自动转化mapjoin,但还是建议设成true,可以在需要特殊处理人为转化为mapjoin。 hive.auto.convert.join=true; hive.mapjoin.smalltable.filesize=2原创 2015-08-08 21:54:14 · 682 阅读 · 0 评论 -
Hive0.14数据存储优化
1.hive数据存储优化 1>对于需要经常连接查询的表一定要建立分区和桶。分区的意义在于列裁剪数据,桶的意义在于并行计算(因为用来做桶的列通过hash后分布在各自桶里,在连接时并行进行桶与桶之间的连接即可。(ORC格式的stripes文件同样有这个功能后面讲到)) 要使用以上这个特性需要在建表时构建表的分区结构和分桶结构。这个行为发生在数据存储环节。原创 2015-08-08 21:53:01 · 416 阅读 · 0 评论 -
Hive客户端多并发问题解决方法记录
问题出现场景:如用户描述:( 测试脚本如下:echo " set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.optimize.sort.dynamic.partition=false;set hive.exec.max.dyn原创 2015-08-08 21:50:43 · 2795 阅读 · 0 评论 -
Tez不能找到压缩类问题
为提高程序处理效率添加了set mapreduce.map.output.compress=true;set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;这样会导致tez程序报错,具体错误如下: TaskAttempt 3 failed, info=[Error: F原创 2016-07-29 14:02:22 · 1663 阅读 · 0 评论