【Spark】RDD依赖讲解(宽依赖和窄依赖)

一、窄依赖(narrow dependencies)

1、子RDD的每个分区依赖于常数个父分区(既与数据规模无关)

2、输入输出一对一的算子,且结果RDD的每个分区结构不变,主要是map、flatMap

3、输入输出一对一,但结果RDD的结构发生了变化,如union、coalesce

4、从输入中选择部分元素的算子,如filter、distinct、subtract、sample

二、宽依赖(wide dependencies)

1、子RDD的每个分区依赖于所有父RDD分区

2、对单个RDD基于key进行重组和reduce,如groupByKey、reduceByKey

3、对两个RDD基于key进行join和重组,如join

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值