第137课: Spark面试经典系列之数据倾斜解决之Map 端Reduce及问题思考

本文探讨了Spark中数据倾斜的问题及其解决策略,特别是在Map端Reduce的情景下。通过分析一个join操作的例子,展示了数据倾斜可能如何发生。针对大RDD与小RDD的组合,建议使用mappartition结合broadcast来处理,但这种方式可能导致OOM问题。对于两个大型RDD的情况,提出了采用采样方法调整RDD规模以缓解数据倾斜。
摘要由CSDN通过智能技术生成
第137课:  Spark面试经典系列之数据倾斜解决之Map 端Reduce及问题思考
1 spark 数据倾斜解决之map端reduce

2 map 端reduce 的问题思考


看一个join的例子



上面的join怎么计算出来的呢?粉丝请看这个:先做cogroup然后  join用了 笛卡尔积






如果发生了数据倾斜,假设一个情况大rdd和小rdd

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

段智华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值