RDD的五大特性

本文深入解析了RDD(弹性分布式数据集)的基本概念,包括其分片特性、计算粒度、依赖关系、分区策略及数据本地性等内容。文章指出,RDD通过分片实现并行计算,依赖关系分为窄依赖和宽依赖,并强调了数据本地性对于提高计算性能的重要性。
摘要由CSDN通过智能技术生成
源码注释
 *  - A list of partitions
 *  - A function for computing each split
 *  - A list of dependencies on other RDDs
 *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
 *  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
 *    an HDFS file)


一、RDD是一个分片的数据集合;
    1)、RDD的分片数决定并行计算的粒度;
2)、RDD的分片数可以在创建RDD时指定,其默认值为当前job分配到的CPU核数。


二、RDD的函数针对每个分片进行计算;
    1)、RDD每个分片是单独进行计算的。
    
三、RDD之间是个依赖的集合;
    1)、中间过程的RDD都是由RDD转换而来,RDD之间是有着单向无环依赖关系的;
2)、RDD的依赖分为窄依赖和宽依赖的,shuffle过程是宽依赖产生的;
3)、任务的阶段是按照shuffle过程来划分的,宽依赖过程是性能瓶颈主要所在。


四、可选:key-value型RDD是根据哈希来分区的;
    1)、分片函数:基于哈希的HashPartitioner和基于范围的RangePartitioner;
2)、非key-value的RDD的Partitioner的值为None;
3)、Partitioner函数决定了RDD的分片数量和Shuffle输出时的分片数量。


五、可选:数据本地性优先计算。
    1)、数据本地性级别从高至低分别为:PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY;
2)、数据本地性级别也是计算性能的关键所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值