Spark学习笔记 --- RDD的创建

Spark操作的核心是RDD,一种有容错机制的并行数据集合。可以通过并行集合(如调用SparkContext的parallelize方法)和Hadoop数据集(如textFile和sequenceFile)来创建RDD。并行集合允许从现有Scala集合创建分布式数据,而Hadoop数据集支持从Hadoop支持的各种存储系统中读取数据。
摘要由CSDN通过智能技术生成

Spark所有的操作都围绕弹性分布式数据集(RDD)进行,这是一个有容错机制并可以被并行操作的元素集合,

具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。



目前有两种类型的基础RDD:


并行集合(Parallelized Collections):接收一个已经存在的Scala集合,然后进行各种并行计算。


Hadoop数据集(Hadoop Datasets) :在一个文件的每条记录上运行函数。只要文件系统是HDFS,

或者hadoop支持的任意存储系统即可。 

这两种类型的RDD都可以通过相同的方式进行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

杨鑫newlfe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值