数据倾斜如何处理场景

七里臭臭

已于 2024-03-24 22:12:18 修改

阅读量109

点赞数 1

文章标签： hive 数据库 spark hadoop 数据仓库

于 2023-11-02 14:12:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aqilichouchou/article/details/134181200

版权

倾斜问题的处理策略

场景1: join关联key为空/异常导致的倾斜

采样方法

百分比采样
随机采样
重分区后进行limit采样

处理思路

对于关联key为空的情况，可将其映射为一个随机值，然后与另一个表的key进行匹配
对于热点数据，可以使用case when语句进行处理
也可以使用union all合并结果

场景2: group by倾斜

处理思路

可以使用局部聚合伪combiner或从粒度出发的方法进行处理
可以通过设置一些参数来实现负载均衡，如设置hive.map.aggr参数或hive.groupby.mapaggr.checkinterval参数来控制map聚合行数的阈值

场景3: count distinct倾斜

处理思路

可以通过过滤结果中的空值并加1来处理count distinct倾斜的问题
如果包括group by操作，可以单独处理记录为空的情况，最后用union all将结果合并

场景4: join大表join小表

处理思路

可能是由于key分布不均匀导致的倾斜问题，可以考虑使用map join自动开启，或者广播join来优化性能
可以通过调整一些参数来控制map join的开启条件，如设置hive.auto.convert.join参数、hive.mapjoin.smalltable.filesize参数和hive.mapjoin.cache.numrows参数

场景5: join大表join大表

处理思路

可以通过行列裁剪和分区表谓词下推来缩小表的规模，从而优化性能

场景6: map数量太少

处理思路

可以通过控制每个map读取的大小来增加map的数量，从而提高并行度
可以设置一些参数来调整map的读取方式，如mapreduce.input.fileinputformat.split.maxsize和mapreduce.input.fileinputformat.split.minsize.per.node参数,mapred.max.split.size也可以

场景7: map上游小文件过多

处理思路

可以开启map小文件合并功能，将小文件合并成更大的文件
可以设置一些参数来优化合并策略，如hive.merge.size.per.task参数、hive.exec.orc.default.block.size参数和hive.exec.orc.default.stripe.size参数

场景8: mergefile之后小文件过多

处理思路

可以开启写stage的小文件合并功能，将合并之后的小文件再次合并成更大的文件
可以设置一些参数来优化合并策略，如hive.merge.smallfiles.avgsize参数、hive.merge.mapfiles参数和hive.merge.mapredfiles参数

场景9: hive数据倾斜专用的参数

处理思路

可以使用一些特定的参数来处理倾斜问题，如设置hive.optimize.skewjoin参数、hive.skewjoin.key参数和hive.optimize.skewjoin.compiletime参数
这些参数不推荐使用，因为如果配置不正确可能会导致性能变慢

场景10: reduce弱

处理思路

针对一些倾斜情况不严重的情况，可以通过调整reduce的内存和个数来提高并行度
可以设置一些参数来控制reduce的内存和个数，如hive.exec.reducers.bytes.per.reducer、hive.exec.reducers.max和mapreduce.job.reduces等

场景11: map弱

处理思路

可以通过调整map的内存和核心数来提高并行度和性能
可以设置一些参数来控制map的内存和核心数，如mapreduce.map.memory.mb、mapreduce.map.cpu.vcores和mapreduce.map.java.opts等

场景12: hive并行不够

处理思路

对于Hive作业，并行度不够的情况，可以通过调整一些参数来增加并行度
可以设置一些参数来调整并行度，如hive.exec.parallel、hive.exec.parallel.thread.number等

场景13: Spark作业专用

处理思路

针对Spark作业，并行度不够的情况，可以通过调整一些参数来增加并行度
可以设置一些参数来调整并行度，如spark.dynamicAllocation.enabled、spark.yarn.driver.memory、spark.executor.memory、spark.executor.instances和spark.executor.cores等

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜如何处理场景

倾斜问题的处理策略场景1: join关联key为空/异常导致的倾斜采样方法百分比采样随机采样重分区后进行limit采样处理思路对于关联key为空的情况，可将其映射为一个随机值，然后与另一个表的key进行匹配对于热点数据，可以使用case when语句进行处理也可以使用union all合并结果场景2: group by倾斜处理思路可以使用局部聚合伪combiner或从粒度出发的方法进行处理可以通过设置一些参数来实现负载均衡，如设置hive.map.aggr参数或hive.
复制链接

扫一扫

七里臭臭 CSDN认证博客专家 CSDN认证企业博客

码龄4年

10: 原创

60万+: 周排名

24万+: 总排名

3202: 访问

: 等级

144: 积分

2: 粉丝

2: 获赞

4: 评论

7: 收藏

私信

关注

热门文章

最新评论

ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 可以考虑使用minimal合并级别。 minimal合并级别在进行ORC文件合并时只会合并必要的stripe，即当需要合并的stripe数量超过了一个block大小（由hive.merge.smallfiles.avgsize参数控制）时才会进行合并。这样可以尽量保持较小的stripe大小
ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 6.3.2的stripe相关大小参数和等级好像都是固定的不可更改,因为用的orc版本是定死的,除非...升级orc版本否则还是桶表或者用其他工具来加工一下这个orc文件吧
ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 而且不同的数据集和查询模式可能会导致不同的行数据量，从而影响每个stripe的大小,因为每一行数据不一样,有的是很宽的表, 但是hive.merge.file.stripe.level这个参数好像可以研究一下,好像有四种策略呢,禁用/最小化/正常/积极合并
ORC文件的stripe信息导致的数据倾斜问题
bulbcat: hello ，看着大佬跟我使用的几乎一样的技术栈，cdh 6.3.2 。hive on spark 。我也用了同样的方法处理了 stripe 过多的问题。大佬知道怎么合理控制 stripe 数目么？除了小文件merge出来的大 stripe , 基于 file merge 的大表也会出单个文件大量 stripe 的问题导致读数慢，这个大佬有合理的参数可以解决这个问题么？这个 10000 行一个 stripe 这个配置看着在我的环境上大概是 5000-20000 这个区间并不是一个稳定值
Hive 相关的reduce参数设置
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/616993553。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。