大数据-数据仓库-数据倾斜

最新推荐文章于 2024-04-14 21:22:23 发布

ckSpark

最新推荐文章于 2024-04-14 21:22:23 发布

阅读量1.6k

点赞数

文章标签：数据倾斜大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MsSpark/article/details/104643065

版权

本文介绍了大数据处理中的数据倾斜现象，包括其定义、产生原因及解决方案。数据倾斜因key分布不均导致部分reduce任务过重，影响整体任务完成。解决方案包括参数调节如启用Map端聚合和调整SQL语句，例如优化Join操作和处理count distinct情况。此外，针对空值和不同数据类型关联等业务场景提出了解决策略。

摘要由CSDN通过智能技术生成

一、什么是数据倾斜

简单来说，数据倾斜就是数据的分布不平衡，在处理数据时有些很快处理完，而有些又迟迟未能处理完，导致整体任务最重迟迟无法完成，这种现象就是数据倾斜造成的。

数据倾斜就是key分布不均匀，分发到不同的reduce上，个别reduce任务特别重，导致其他reduce都完成，而这些个别的reduce迟迟不完成的情况。

二、数据倾斜原因

导致数据倾斜的原因有：

key分布不均匀
map端数据倾斜，输入文件太多且大小不一
reduce端数据倾斜，分区器问题
某些sql语句本身容易产生数据倾斜
业务数据本身的特征

三、数据倾斜的解决方案

3.1 参数调节

hive.map.aggr=true
Map端部分聚合，相当于Combiner
hive.groupby.skewindata=true

3.2 SQL语句调节

如何Join：
选取Join Key分布最均匀的表作为驱动表，做好列裁剪和filter操作，已达到两表做join的时候，数据量相对变小的效果。

大小表Join：
使用map join让小的维度表（1000条以下的记录条数）先进内存，在map端完成reduce。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。