数据倾斜

最新推荐文章于 2024-07-17 09:48:31 发布

奇妙探险家

最新推荐文章于 2024-07-17 09:48:31 发布

阅读量165

点赞数

分类专栏： hadoop spark hive 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013760453/article/details/88600841

版权

hadoop 同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

产生原因：shuffle过程中部分key占比过大，导致计算集中到个别reducer或者executor上，拖慢了整体计算时间。

解决方法：

1、过滤少数导致倾斜的key：shuffle前将这些key排除掉，不对其进行计算。（hive的where字句，spark的filter）

2、提高shuffle操作的并行度：增加reducer数目、spark中给shuffle算子传入并行度参数，旨在减少每个计算单元分配到的key

3、随机前缀二次聚合法：对key加随机数前缀进行一次聚合，对结果去除前缀后再进行二次聚合

（在hive中set hive.groupby.skewindata=true;就是用二次聚合解决count(distinct) 的倾斜问题）

4、广播小表法：跳过shuffle直接达到join效果：broadcast实现mapper端join

5、拆分join（原理类似于分桶表）：大表和大表关联时，拆分成并行的多个join，再将结果union all。例如将北京的账户和北京的现金join，其他分公司的账户和其他分公司的现金join，再将结果合并。

6、组合法：方法5中，对拆分出的倾斜部分再使用上述方法2/3/4。

https://blog.csdn.net/qq_35394891/article/details/82261571

集群加节点负载均衡：

#启动数据均衡，阈值 5% （不加即为默认的10%）

$HADOOP_HOME/bin/start-balancer.sh –threshold 5

#停止数据均衡

$HADOOP_HOME/bin/stop-balancer.sh

hive优化==================================================================

1、按日分区、按关联键分桶

2、尽早使用where等限制结果集大小，优先放到子查询中

3、拆分查询，大key与小key分开关联，大key采用map端join

count(distinct) 很容易出现倾斜问题，需在hive中set hive.groupby.skewindata=true;使用二次聚合的方式解决。

奇妙探险家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜

产生原因：shuffle过程中部分key占比过大，导致计算集中到个别reducer或者executor上，拖慢了整体计算时间。解决方法：1、过滤少数导致倾斜的key：shuffle前将这些key排除掉，不对其进行计算。（hive的where字句，spark的filter）2、提高shuffle操作的并行度：增加reducer数目、spark中给shuffle算子传入并行度参数，旨在减少...
复制链接

扫一扫

专栏目录

奇妙探险家 CSDN认证博客专家 CSDN认证企业博客

码龄11年

148: 原创

7万+: 周排名

46万+: 总排名

33万+: 访问

: 等级

4260: 积分

34: 粉丝

120: 获赞

33: 评论

265: 收藏

私信

关注

热门文章

分类专栏

kafka 1篇
报表工具 1篇
python 26篇
mysql 18篇
linux 17篇
hadoop 10篇
hive 9篇
java 27篇
爬虫 2篇
kettle 1篇
spark 7篇
Shell 4篇
Maven 7篇
git 3篇
VBA 1篇
阅读材料 1篇
scala 1篇
IntelliJ IDEA 7篇
SQL 10篇
项目记录
磐石项目
Megalith
数据仓库 4篇
教程链接 1篇
oracle 5篇
informatica 9篇
docker 3篇
ETL 1篇
greenplum 1篇

最新评论

使用python统计高频词，模糊匹配不规范公司名称
weixin_50755808: 那如果是公司地址的，比如你要做一个某个省市的公司地址，其中有的地址的字段很相似，那么我怎么筛选也许是两个相同的地址，比如第一个地址精确到门牌号，第二个地址有前一个相似的门牌号，然后还有别的字段，我怎么区分》在线问，不急
使用python统计高频词，模糊匹配不规范公司名称
breakthrough：）: 抱歉问一个比较弱智的问题我在jupyter notebook里面import jieba它显示module not found该怎么办啊
oracle笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)使用更多的站内链接；(3)增加条理清晰的目录。
akka并发通信、actor模型的理解
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7975834, 请多输出高质量博客, 帮助更多的人
shell命令笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。