spark_RDD数据操作

本文详细介绍了Spark中的RDD(Resilient Distributed Dataset)数据操作,包括创建、转化和行动操作。RDD是不可变的、可并行操作的数据集,通过谱系图实现容错性。转化操作如filter、map和join是惰性的,行动操作如count和collect则触发计算。RDD支持分区优化,以减少网络传输。此外,文章还讨论了RDD的持久化、适用场景以及基础和键值对RDD的各种操作。
摘要由CSDN通过智能技术生成

RDD数据操作

  1. RDD基础

    RDD是Spark对数据的核心抽象—弹性分布式数据集(Resilient Distributed DataSet)。RDD表示分布在多个计算节点上不可变的、可以并行操作的元素集合。Spark中对RDD的操作包括创建RDD,转化已有的RDD(transformation)以及调用RDD操作(action)进行求值。

    1.1 RDD的创建

    ​ RDD的创建有两种方法:读取一个外部数据集,或在驱动器程序里分发驱动器程序的对象集合(比如list和set)

    //读取外部数据集
    val lines = sc.textFile("/path/to/README.txt")
    //将已有的集合传给SparkContext的parallelize()方法
    val lines = sc.parallelize(List("pandas","panpan"))

    1.2 RDD的转化操作(transformation)

    ​ 转换操作由一个RDD产生

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值