spark-RDD编程

本文介绍了Spark中的RDD编程,包括转化操作如filter、union,行动操作如count、take、collect,以及RDD的持久化存储级别。转化操作返回RDD,行动操作返回其他数据类型,RDD.persist()用于缓存数据。此外,还讨论了RDD的谱系图和常见集合操作,如distinct、intersection、subtract和cartesian。
摘要由CSDN通过智能技术生成

RDD就是一个不可变的分布式对象集合。

创建 RDD:  1)读取一个外部数据集(SparkContext.textFile());
                    2)在驱动器程序中对一个集合进行并行化。
 
RDD 操 作: 1)转 化 操 作(transformation): 会由一个 RDD 生成一个新的 RDD。
                      2)行 动 操 作 action):会对 RDD 计算出一个结果,并把结果返回到驱动器程序中,或存储到外部存储系统(如 HDFS)中。
 

转化操作union() 、filter() 

行动操作count() 、take() 、collect() 

filter:RDD过滤数据;

union:两个RDD操作;

count:RDD计数;

take:获取RDD少量数据;

collect:获取RDD全部数据。

转化操作和行动操作的区别:在于 Spark计算 RDD的方式不同,转化操作返回的是 RDD,而行动操作

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值