待续(四）spark学习系列

最新推荐文章于 2023-09-22 09:06:12 发布

夕阳那边

最新推荐文章于 2023-09-22 09:06:12 发布

阅读量292

点赞数

分类专栏：开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iihtd/article/details/51418866

版权

开源专栏收录该内容

8 篇文章 0 订阅

订阅专栏

这章节主要延续的（三）中的shuffle模块提供的shuffle read。

在spark 中，shuffle read是提供给shuffle的后继用来读取shuffle数据的。当需要读取远程数据的时候，

1.每次只会开最多5个线程进行读取

2.每次请求的数量不会超过maxmbinflight，默认是45M/5，这样的好处是，限制数据的读取量，当一个节成为了网络拥塞节点后，在它上面读取数据的任务都会排队，如果任务的数据量大，那么，这个读取任务时间延迟会很高，导致后面排队任务等待时间过长。平均考虑，每个任务读取的数据量不应该过大。

在featch的时候是将要在某台机器上面读取的数据在边生成featch任务的时候边统计数据量，当统计的数据量到达了可以一次featch的时候，就开始创建一次的featch任务，最后再统一的下发featch任务。从另外一个角度，也就是说同一个address的featch实际上如果小于阈值，是会组合到一起的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
待续(四）spark学习系列

这章节主要延续的（三）中的shuffle模块提供的shuffle read。在spark 中，shuffle read是提供给shuffle的后继用来读取shuffle数据的。当需要读取远程数据的时候，1.每次只会开最多5个线程进行读取2.每次请求的数量不会超过maxmbinflight，默认是45M/5，这样的好处是，限制数据的读取量，当一个节成为了网络拥塞节点后，在它上面读取数据的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。