HQL数据倾斜解决方法总结

最新推荐文章于 2023-12-29 00:00:00 发布

ArnoChanszu

最新推荐文章于 2023-12-29 00:00:00 发布

阅读量506

点赞数 3

分类专栏：数据处理基础

本文链接：https://blog.csdn.net/fileszu/article/details/108127794

版权

8 篇文章 0 订阅

订阅专栏

近来，求职数据分析师常被问到：数据倾斜如何调优？对于经常使用HQL处理大数据的同学，这个问题并不陌生：任务进度长时间维持在99%，而查看监控页面，会发现只有某几个reduce子任务尚未完成，十分诡异。

要解决数据倾斜这个问题，我们需要先了解下数据倾斜产生的原因是什么？一般由于以下三个操作：count(distinct *), group by , join引起的，导致某个reducer处理的数据过多引起处理时间非常耗时。

因此解决调优的方式可以从3方面入手尝试：

1. 数据层面

2. 代码方面：

3. 参数方面：

负载均衡：hive.groupby.skewindata=true
map端聚合：hive.map.aggr = true
增加reduce 个数: hive.exec.reducer.max = / mapred.reduce.tasks =
采用压缩：hive.exec.compress.output = true /mapredu.output.compress = true (这个方式不完全是解决数据倾斜问题，减少IO读写和网络传输，提高效率）

关注

专栏目录