Spark学习---RDD

首先推荐看这个博客:https://blog.csdn.net/anzhsoft/article/details/39851421

说的挺好的就是有点乱,有一些资料汇总。

另外图解spark 核心技术与案例实战这本书也挺好的,推荐入门者读。

总而言之RDD是弹性分布式数据集,推荐大家背英文

RDD is the spark's core abstraction which is short for resilient distributed dataset.

这里的resilient的意思是:able to withstand or recover quickly from difficult conditions.

即这些集合是弹性的,如果数据集的一部分丢失,则可以根据“血统”对它们进行重建,保证了数据的高容错性。由于RDD提供一种基于粗粒度变换的接口,该接口会将相同的操作应用到多个数据集,这就算他们可以记录创建数据集的血统,而不需要存储真正的数据,从而达到高效的容错性,这么看来是不是有点区块链的意思呀。

It is the immutable distributed collection of objects and has the ability to be recomputed from history.

 

Internally spark distributes the data in RDD to different nodes across the cluster to achieve parallelization.

RDD的支持两种操作:转换(Transformation)和动作(actions). 转换(transformation)从现有的数据集创建一个新的数据集;而动作(actions)在数据集上运行计算后,返回一个值给驱动程序。

RDD的依赖关系:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值