Apache Spark分布式计算原理

Spark WordCount原理

在这里插入图片描述

为什么需要划分Stage

数据本地化
移动计算,而不是移动数据
保证一个Stage内不会发生数据移动
根据是否发生了数据移动判断是否划分了阶段

Spark Shuffle过程

在分区之间重新分配数据
父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中
中间结果写入磁盘
由子RDD拉取数据,而不是由父RDD推送
默认情况下,Shuffle不会改变分区数量
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值