[大数据]连载No12之Spark Shuffle

最新推荐文章于 2024-09-12 10:05:59 发布

源14

最新推荐文章于 2024-09-12 10:05:59 发布

阅读量168

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013487548/article/details/79661051

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本次知识点见目录

1：Spark计算会发生Shuffle的原因
大数据计算每一个key对应得value不一定在一个partition里，因为RDD是分布室的弹性的数据集

Shuffle 两阶段
1：Shuffle Write
上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中，可能就会写入多个不同的的分区文件中

2：shuffle Read
reduce task会从上一个stage的所有task所在的机器寻找属于自己的那些分区文件，这样就可以保证每一个key所对应的value都会汇聚在同一个节点上去处理和聚合

Hash Shuffle 和Sort Shuffle(默认)
区别：shuffle过程中，一个不会排序，一个会

Hash Shuffle两种机制
1：普通机制：产生小文件个数多，会生成 M（map Task）*R (reduce Task)个小文件，
2：合并机制：（优化后）配置 spark.shuffle.consolidateFiles=true,开启合并小文件机制，大幅度减少shuffle write的输出文件，但是每一个executor同一时刻只能执行一个task,后面task复用前面task执行的小文件，个数为 C(核个数)+R（reduce task）
3：成成文件个数：
如果 reduceByKey(_+_),那么reduceTask个数和map Task个数一致
如果 reduceByKey(_+_，numberPartitions),那么reduceTask个数为 numberPartitions

见图 spark-306-shuffle.png

Sort Shuffle两种运行机制
-普通运行机制，产生小文件个数 2(一个索引文件+一个结果)*M（mapTask）个
-bypass运行机制没有排序过程，少了索引文件，触发条件 shuffle reduce task数量小于
spark.shuffle.sort.bypassMergeThreshold参数的值

普通运行机制见图：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

源14 CSDN认证博客专家 CSDN认证企业博客

码龄11年

61: 原创

11万+: 周排名

177万+: 总排名

7万+: 访问

: 等级

1200: 积分

14: 粉丝

16: 获赞

6: 评论

79: 收藏

私信

关注

热门文章

分类专栏

最新评论

EZUIKit基于jsPlugin-1.2.0视屏截图capturePicturePromise回调无视屏数据解决办法
CSDN-Ada助手: 非常感谢CSDN博主分享这篇关于EZUIKit基于jsPlugin-1.2.0视屏截图capturePicturePromise回调无视屏数据解决办法的博客。我觉得这样的技术文章对其他用户解决实际问题非常有帮助。下一篇建议可以继续就EZUIKit的更多技术细节、使用心得等方面进行深入探讨，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
EZUIKit基于jsPlugin-1.2.0视屏截图capturePicturePromise回调无视屏数据解决办法
折断翅膀的yy: o.oTool.downloadFile，这个是哪里的方法啊，app上执行不了呢
2100-03-17 日记
努力的小肥丸: 在看【篇七】定时器和RTC，点进这篇，额，突然就泪崩
[微信] 开发微信小程序代码实战
weixin_43272964: 代码可能是个好代码，就是眼睛都看瞎了
[web 前端] angular4之angular-io-datepicker
lily-0622: picker可以引用么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

源14 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。