Map join引起的数据倾斜问题的解释

最新推荐文章于 2023-04-06 16:22:12 发布

宝宝不哭^_^

最新推荐文章于 2023-04-06 16:22:12 发布

阅读量1.2k

点赞数

文章标签： Map join 引起数据倾斜问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43390992/article/details/88812099

版权

Map join引起的数据倾斜问题的解释
普通的join，那么肯定要走shuffle，那么普通的join 肯定走的是reduce join
先将所有相同的key，对应的values，汇聚到一个task中，然后再进行join。
将reduce join转换为map join。

spark中如果两个RDD要进行join，其中一个RDD是比较小的。一个RDD是一百万数据，一个RDD是一万数据。
如果一个RDD很小 broadcast(广播变量出去的那个小数据以后，就会在每个executor manager中都驻留一份。要确保你的内存)

正常join是在reduce端join 会经过shuffle 数据重新分区以后会产生数据倾斜如果map join把小表缓存在内存中直接在map端进行计算出结果不会产生shuffle过程所以会解决数据倾斜问题

宝宝不哭^_^

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Map join引起的数据倾斜问题的解释

Map join引起的数据倾斜问题的解释普通的join，那么肯定要走shuffle，那么普通的join 肯定走的是reduce join先将所有相同的key，对应的values，汇聚到一个task中，然后再进行join。将reduce join转换为map join。spark中如果两个RDD要进行join，其中一个RDD是比较小的。一个RDD是一百万数据，一个RDD是一万数据。如果...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。