Spark-RDD的五大特性

RDD:弹性分布式数据集,可以看成scala中的集合,实际上是spark中的统一编程模型,RDD是不存储数据的,当需要数据时,去数据源拉取数据

1、RDD是由一系列的分区组成

        第一个RDD的分区的个数是由文件的切片的个数所决定的

2、每一个Task是作用在每一个分区上面

3、RDD之间是存在依赖关系的

        shuffle默认也是采用HashParttition这种分区方式

        shuffle过程中肯定会有网络传输,所以就会涉及序列化和反序列化的过程,上游产生的数据就会进行落地。

        依赖关系可以通过有无shuffle分为宽窄依赖两种:

                存在shuffle的被称为宽依赖

                不存在shuffle的被称为窄依赖

        如何判断宽窄依赖:

                站在父RDD的角度,如果父RDD每一个分区与子RDD每一个分区之间是一一对应的关系,那么父RDD与子RDD之间就是窄依赖,如果父RDD每一个分区与子RDD每一个分区之间是一对多的对应关系,那么父RDD与子RDD之间就是宽依赖

        然后在根据宽窄依赖又可以划分出不同的Stage

                Stage指的是一组可以并行计算的Task,会在shuffle阶段分成不同的Stage。

4、分区类算子只能作用在KV形式的RDD上

5、Spark会给每一个Task尽可能的提供最佳的计算位置,移动计算不移动数据

                假设数据是存储在node1上的Datanode,然而Task任务是在Executor上启动的,然而     Exector是在Container(假设时yarn的模式)上启动,然而是由yarn中的NodeManager分配的资  源,假设此时的NodeManager是node2上,此时运行就需要将数据传输到node2上,但是RDD来说,就会将Task任务分配到node1上,速度会比较前一种较快,这就是移动任务不移动数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值