![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 91
三石先生已存在
这个作者很懒,什么都没留下…
展开
-
数据倾斜的原理及解决办法
数据倾斜一.什么是数据倾斜简单来说,数据倾斜就是在计算数据的时候,由于key的分布不均匀,导致大量的数据集中到一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。二.数据倾斜的表现1.hadoop中的数据倾斜hadoop中直接贴近用户使用的是Mapreduce程序和hive程序。数据倾斜时主要表现在reduce阶段卡在99%,一直不能结束。详细日志表现...转载 2020-03-26 22:53:22 · 1567 阅读 · 0 评论 -
hive优化总结
1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1Bmapred.max.split.size: 指的是数据的最大分割单元大小;max的默认值是256MB通过调整max可以起到调转载 2021-03-28 21:20:27 · 120 阅读 · 0 评论