hive
文章平均质量分 80
飘茗
这个作者很懒,什么都没留下…
展开
-
hive无法启动的错误metastore.HiveMetaStoreClient
重点在后面! 删除了master的/tmp目录,结果jps和bin/hive就不能用了,从slave上复制了一份过来,可是jps之后什么都没有··只好重新启动了集群,还是没有,查看了刚复制过来的/tmp,有了本来应该有的.sh文件。/tmp目录下的文件应该是启动时自动创建的,于是我重新启动了master虚拟机,然后jps就有了~好开心 :D可是bin/hive还不能用···报告缺少目录#s...原创 2014-09-28 10:38:18 · 4117 阅读 · 0 评论 -
(转)数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。 Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce...原创 2014-10-20 12:15:56 · 108 阅读 · 0 评论 -
(转)Hive几种数据导出方式
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 在本博客的《Hive几种数据导入方式》文章...原创 2014-11-11 17:44:47 · 283 阅读 · 0 评论 -
hive日常
1、sqlselect ROUND(RAND()*1000,0) from dual; 生成随机数 2、hive创建临时表create TEMPORARY table up_speed select a.place,a.quart,a.year,a.kwh/b.kwh-1 as elec_speed_up from (select c.place,c.year,c....原创 2017-10-25 09:51:02 · 127 阅读 · 0 评论 -
UDTF编写
UDTF用来解决 输入一行输出多行(On-to-many maping) 的需求。 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。初始化完成后,会调用proc...2017-10-25 10:32:00 · 110 阅读 · 0 评论 -
UDAF编写
创建存储对象的类创建对象UDAF需要调用到的方法: init HIVE会调用此方法来初始实例化一个UDAF evaluator类 iterate 将一行新的数据载入到聚合buffer中(对数据进行初始化处理) terminatePartial 以一种可持续化的方法返回当前聚合内容。(返回值只可以使用Java基本...原创 2017-10-26 08:48:14 · 328 阅读 · 0 评论