Spark学习之-RDD编程

本文深入探讨了Spark中的RDD编程,包括RDD的创建方法,如并行化集合和外部数据集,以及RDD的主要操作,如transformations和actions。RDD的transformations是惰性的,仅在action触发时计算。此外,文章还介绍了RDD的持久化和shuffle操作的影响,强调了在处理全局状态时使用Accumulator的重要性。
摘要由CSDN通过智能技术生成

RDD 编程

一、概述

RDD是resilient distributed dataset的缩写。创建RDD有两种方法:一种是parallize驱动程序中存在的集合;另一种是引用外部存储系统中的数据集来创建。外部数据源象共享文件系统,HDFS,HBase,或者任何提供Hadoop InputFormat的数据源。

1、 Parallelized Collections(并行化集合)

并行化集合的创建是通过调用SparkContext的parallelize方法作用于已经存在的collection(在驱动程序中)。集合中的元素被复制,使其成为一个分布式数据集,该分布式集可以被并行操作。

Scala版本:

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

Java版本:

List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);

Python 版本:

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

分布式集合一旦创建,它就可以被并行操作。例如,我们可以distData.reduce((a,b)=>a+b)计算数组的各。一个对于并行集合十分重要的参数是将数据集切分成的分区的数量。Spark将为集群中每个分区(Partition)运行一个task。特别提一下,一般在集群中每一个CPU配2~4个分区。一般而言,Spark会尝试着基于集群自动设置分区的数量。尽管如此,也可以手工设置parallize方法的第二个参数,例如sc.parallelize(data,10)。注意:有些地方使用slice这个词以保持向后兼容

2、External Datasets(外部数据集)

Spark 可以从任何支持Hadoop文件系统的数据源创建分布式数据集,这些数据源(文件系统)包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3等等。Spark支持文本文件,序列化文件和任何其它Hadoop支持的输出格式。

SparkContext通过textFile方法创建文本类型RDDs。该方法里面的参数是文件的路径,它从文件中读取的以行的集合的形式的数据。

以下是关于Spark读取文件应该注意的一些Notes:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值