SparkCore(14):RDD宽依赖和窄依赖

68 篇文章 0 订阅
18 篇文章 0 订阅

一、两者区别的架构

1.宽依赖和窄依赖操作算子的区别

2.宽依赖和窄依赖类型区别

 

二、概念

1.窄依赖

(1)概念

    子RDD的每个分区的数据来自常数个父RDD分区;父RDD的每个分区的数据到子RDD的时候在一个分区中进行处理。即,父依赖的每个分区都分到子依赖的一个分区中

(2)对应算子

    (a)输入输出一对一的算子,且结果 RDD 的分区结构不变,主要是 map 、 flatMap
    (b)输入输出一对一,但结果 RDD 的分区结构发生了变化,如 union 、 coalesce(要求shuffle  参数为false)
    (c)从输入中选择部分元素的算子,如 filter 、 subtract 、 sample

(3)窄依赖类型:

    RangeDependency
    OneToOneDependency

2.宽依赖

(1)概念

    子RDD的每个分区的数据来自所有的父RDD分区;父RDD的每个分区的数据都有可能分配到所有的子RDD分区中

(2)对应算子

    (a)对单个 RDD 基于 key 进行重组和 reduce ,如 groupByKey 、 distinct 、 reduceByKey ;
    (b)对两个 RDD 基于 key 进行 join 和重组,如 join(分区数量进行改变)

  (3)宽依赖类型:

      shuffleDependency

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值