Hive
GatsbyNewton
这个作者很懒,什么都没留下…
展开
-
Hive Streaming
1.Hive Streaming介绍在前面我们看到了UDF、UDTF、UDAF的实现并不是很简单,而且还要求对Java比较熟悉,而Hive设计的初衷是方便那些非Java人员使用。因此,Hive提供了另一种数据处理方式——Streaming,这样就可以不需要编写Java代码了,其实Streaming处理方式可以支持很多语言。但是,Streaming的执行效率通常比对应编写的UDF或改写Input原创 2016-01-20 17:50:15 · 4901 阅读 · 0 评论 -
Bulkload Hive表到HBase
1.描述HBase可以随机读写海量的数据,但是如果把这海量数据导入到HBase却是一个挑战。如,将Hive表尽可能快的导入到HBase中。这里有以下三种解决方案:使用API把数据一条一条地写入HBase。用HBaseIntegration方法。使用HBase自带的Bulkload功能。但是,第一种方法明显是最低效的;第二种方法我之前已经提到过,同样比较慢;那么,第三种方原创 2016-04-04 10:45:24 · 5011 阅读 · 1 评论 -
Hive报错集锦
1.Terminal initialization failed; falling back to unsupported在启动Hive时报错:Terminal initialization failed; falling back to unsupported解决方法:我看的有博客说是Hadoop的share/hadoop/yarn/lib/jline-0.9.94.jar版本太原创 2016-01-10 15:02:20 · 10544 阅读 · 2 评论 -
MapReduce读/写RCFile文件
RCFile是Facebook制定的一种高效存储结构,它结合了行存储和列存储的优点,应用于Hive,Pig等系统中。所以,RCFile是不可以用head或tail命令截取某些行重定向新文件中。由于RCFile广泛应用于Hive等系统中,所以我们就先看看用MapReduce怎么读取RCFile文件。RCFile文件转换成CSV文件public class RCFileToCSV {原创 2016-04-03 19:39:24 · 2704 阅读 · 1 评论 -
Hive集成HBase(一)
Hive集成HBase(一)Hive集成HBase(二)在介绍Hive集成HBase的使用之前,我们先看看Hive和HBase之间通信用到的一个包,这个包至关重要,容不得有半点差池,否则就会集成失败。下面这个官网链接可供参考https://cwiki.apache.org/confluence/display/Hive/StorageHandlers。因此,第一篇文章先讨论Hive和H原创 2016-03-14 22:58:55 · 4363 阅读 · 3 评论 -
浮点数陷阱
今天在用Hive的时候,发现浮点数比较有个陷阱,即FLOAT类型和DOUBLE类型的比较。如果我不刻意问的话,大家估计大部分人都认为FLOAT类型的0.2和DOUBLE类型的0.2相等。事实上不是这样的,这是后来我在《Programming Hive》中找到的答案。想知道更多细节,且听我下面细细道来。比如,我们定义了一个FLOAT类型的变量f = 0.2,和DOUBLE类型的变量 d =原创 2016-01-08 14:42:06 · 1813 阅读 · 0 评论 -
Hive UDF教程(三)
1.UDAF前两节分别介绍了基础UDF和UDTF,这一节我们将介绍最复杂的用户自定义聚合函数(UDAF)。用户自定义聚合函数(UDAF)接受从零行到多行的零个到多个列,然后返回单一值,如sum()、count()。要实现UDAF,我们需要实现下面的类:org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolvero原创 2016-01-19 10:25:08 · 3451 阅读 · 0 评论 -
Hive UDF教程(二)
1.UDTF上一篇介绍了基础的UDF——UDF和GenericUDF的实现,这一篇将介绍更复杂的用户自定义表生成函数(UDTF)。用户自定义表生成函数(UDTF)接受零个或多个输入,然后产生多列或多行的输出,如explode()。要实现UDTF,需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,同时实现三个方法:// 该方法指定输入原创 2016-01-18 17:27:41 · 3057 阅读 · 2 评论 -
Hive UDF教程(一)
1.Hive UDF简介在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)。在介绍UDAF和UDTF实现之前,我们先在本章介绍简单点的UDF实现——UDF和GenericUDF,然后以此为基础在下一章介绍UDAF和UDTF的实现。Hive有两个不同的接口原创 2016-01-17 16:44:31 · 20409 阅读 · 1 评论 -
Hive集成HBase(二)
Hive集成HBase(一)Hive集成HBase(二)1.添加依赖jar在Hive启动时添加依赖jar:hive-hbase-handler-x.y.z.jar和编译hive-handler源码时依赖的jar。添加jar时,有两种方法:在Hive CLI启动时添加,在Hive CLI启动后用ADD jar添加。对于单节点的HBase服务器,Hive CLI启动时:原创 2016-03-16 15:38:52 · 2746 阅读 · 2 评论