大数据:spark:创建操作 + 转换操作

本文详细介绍了在Spark中创建RDD的两种主要方式:从集合中创建和从外部存储创建。探讨了parallelize和makeRDD函数的区别,以及textFile如何用于读取本地或HDFS文件。同时,对比了coalesce和repartition在重新分区操作中的作用。
摘要由CSDN通过智能技术生成

在spark中创建RDD的创建方式可以分为2种:

(1)从集合中创建RDD;
(2)从外部存储创建RDD; 

1.从集合中创建:parallelize和makeRDD

 相同点:都是从集合中创建RDD
 不同点:parallelize可以指定分区数,也可以默认系统分区数;
               makeRDD会为对象创建最佳分区(固定:由系统决定)

2.从外部存储创建 textFile 

 textFile将本地文件或者HDFS文件创建出RDD,支持整个目录下所有文件,压缩文件自动解压


 分区操作:coalesce 和 repartition

相同点:coalesce 和repartition 都是对RDD进行重新分区。
不同点:coalesce使用HashPartitioner重分区,第一个参数为重分区数目,第二个为是否进行shuffle ,默认情况为false。                          repartition是coalesce函数第二个参数为true的实现。

注意:重分区数大于原分区数时,必须指定shuffle参数为true。 否则分区数不变。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值