![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 78
调制解调器-softWare
这个作者很懒,什么都没留下…
展开
-
Hive优化总结 ---by 食人花
Hive优化总结 ---by 食人花 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum,count来说,不存在数据倾斜问题转载 2017-09-23 14:07:37 · 428 阅读 · 0 评论 -
数据分析利器之hive优化十大原则
hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。 hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。 一. 表连转载 2017-09-24 15:06:54 · 706 阅读 · 0 评论