- 博客(1)
- 收藏
- 关注
原创 hive数据倾斜优化
在谈及数据倾斜的问题时,首先会想什么事数据倾斜?简而言之就是由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。 容易数据...
2019-12-12 20:07:29 288
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人