spark的shuffle

  1. shuffle就是打乱重新分组
  2. 是将不同分区的数据打乱后重新分组,在分布式系统中涉及到磁盘的读写和网络的数据传输,是直接影响网络性能和吞吐量的操作,因此优化程序时要尽量减少shuffle的操作
  3. shuffle是划分stage的标准,如果一个job有n个shuffle,则就划分成n+1个stage
  4. stage内是窄依赖,前后stage时间是宽依赖
  5. shuffle存在写缓存和读缓存的操作
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值