待续(四)spark学习系列

这章节主要延续的(三)中的shuffle模块提供的shuffle read。

在spark 中,shuffle read是提供给shuffle的后继用来读取shuffle数据的。当需要读取远程数据的时候,

1.每次只会开最多5个线程进行读取

2.每次请求的数量不会超过maxmbinflight,默认是45M/5,这样的好处是,限制数据的读取量,当一个节成为了网络拥塞节点后,在它上面读取数据的任务都会排队,如果任务的数据量大,那么,这个读取任务时间延迟会很高,导致后面排队任务等待时间过长。平均考虑,每个任务读取的数据量不应该过大。

在featch的时候是将要在某台机器上面读取的数据在边生成featch任务的时候边统计数据量,当统计的数据量到达了可以一次featch的时候,就开始创建一次的featch任务,最后再统一的下发featch任务。从另外一个角度,也就是说同一个address的featch实际上如果小于阈值,是会组合到一起的。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值