hive
zhaoguoxian12345
这个作者很懒,什么都没留下…
展开
-
hive 调优记录
数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,转载 2011-12-16 13:33:42 · 3069 阅读 · 0 评论 -
hive中实现差集等操作
一般我们在使用hive进行处理两个数据集的使用经常会遇到处理两个数据集的求差集的问题经过测试提供几个解决方案:test1a 1b 2c 1test_2a 22c 551) 这里我们就要介绍一个hive的 关键字(left semi join)他解决的问题是:IN/EXISTS例子1:原创 2014-01-10 20:39:09 · 13419 阅读 · 0 评论