SparkRDD讲解

       RDD(resilient distributed dataset)弹性分布式数据集,这个数据集可以缓存在内存中,在多级计算间重用。在抽象上来说,它是一个可分区的数据集,不同的分区分布在不同的worker节点上。它的数据默认是存储在内存中的,当内存不足时,会将数据写入磁盘。

       RDD的容错性是很重要的,如果某个节点上的RDD partition数据丢失,那么RDD会根据自己的数据源来重新计算该partition,这就是RDD的容错性——lineage(血统)特性。

      RDD的创建可以由HDFS上的文件来创建,本地文件创建,hive表创建,消息创建,集合创建等。通过SparkContext的textfile方法可以将本地文件或者HDFS上的文件,转化为RDD。

      RDD有两种操作算子:

      ①transformation(转换):并没有立即进行转换,只是记录RDD的操作逻辑。

       map,filter,flatmap,sample,union,groupByKey,reduceByKey,jion

      ②action(执行):真正地执行,并触发transformation的执行。

       reduce,collect,count,take,first,foreach,saveAsTextFile

      RDD的窄依赖(一对一)和宽依赖(多对一):

窄依赖:输出RDD的每一个分区依赖常数个输入RDD的分区。①输入输出一对一,且输出RDD的分区结构不变(map,filter)。②输入输出一对一,但输出RDD的分区结构发生变化(union)

宽依赖:输出RDD的每一个分区依赖所有输入RDD的分区。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值