【spark学习】0-RDD弹性分布式数据集

一、深入理解RDD

1、薯片加工看RDD

        经过发现可以发现:刚从地里挖出来的土豆,经过清洗后的干净土豆、生薯片、烤熟的薯片,流水线上这些食材的不同形态,就是Spark中RDD对于不同数据集合的抽象。

        每一种食材依赖前一种食材就像是RDD中dependenceies属性记录的依赖关系,而不同环节的加工方法,对于的是RDD的compute属性。

        每一颗土豆就是RDD中的数据分片,3颗土豆对应的就是RDD的partitions属性。

2、RDD的特征和属性

        RDD有4大属性:partitions、partitioner、dependencies、compute属性。这些属性保证了RDD具有分布式和容错性两大突出的特性。

        RDD的四大特性又可以划分为2类,横向属性和纵向属性。其中横向属性锚定数据分片实体,规定了数据分片在分布式集群中如何分部,包括:partitions和partitioner;纵向属性用于在纵深方向构建DAG,通过提供构建RDD的容错能力保障内存计算的稳定性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值