RDD----Spark编程读书笔记

最新推荐文章于 2023-12-15 11:21:43 发布

梵天的读书笔记

最新推荐文章于 2023-12-15 11:21:43 发布

阅读量274

点赞数

分类专栏：数据采集和整理文章标签： spark rdd

本文链接：https://blog.csdn.net/is_badboy/article/details/79495573

版权

Spark 核心的概念是 Resilient Distributed Dataset (RDD)：一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他Hadoop 数据格式的数据源。

1. 并行集合

并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq )上调用SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如，这里演示了如何在一个包含 1 到 5 的数组中创建并行集合：

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

并行集合一个很重要的参数是切片数(slices)，表示一个数据集切分的份数。Spark 会在集群上为每一个切片运行一个任务。正常情况下，Spark 会试着基于你的集群状况自动地设置切片的数目。然而，你也可以通过parallelize 的第二个参数手动地设置(例如： sc.parallelize(data, 10) )。

2. 外部数据集

Spark 可以从任何一个 Hadoop 支持的存储源创建分布式数据集，包括你的本地文件系统，HDFS，Cassandra，HBase，Amazon S3等。 Spark 支持文本文件(textfiles)，SequenceFiles 和其他 Hadoop InputFormat。
文本文件 RDDs 可以使用 SparkContext 的 textFile 方法创建。

scala> val distFile = sc.textFile("data.txt")
distFile: RDD[String] = MappedRDD@1d4cee08

一旦创建完成， distFiile 就能做数据集操作。例如，我们可以用下面的方式使用 map 和 reduce 操作将所有行的长度相加： distFile.map(s => s.length).reduce((a, b) => a + b) 。
Spark 读文件时：

如果使用本地文件系统路径，文件必须能在 work 节点上用相同的路径访问到。要么复制文件到所有的 workers，要么使用网络的方式共享文件系统。
所有 Spark 的基于文件的方法，包括 textFile ，能很好地支持文件目录，压缩过的文件和通配符。例如，你可以使用 textFile("/my/文件目录") ， textFile("/my/文件目录/*.txt") 和 textFile("/my/文件目录/*.gz") 。
textFile 方法也可以选择第二个可选参数来控制切片(slices)的数目。默认情况下，Spark 为每一个文件块(HDFS 默认文件块大小是 64M)创建一个切片(slice)。但是你也可以通过一个更大的值来设置一个更高的切片数目。注意，你不能设置一个小于文件块数目的切片值。

除了文本文件，Spark 的 Scala API 支持其他几种数据格式：

SparkContext.wholeTextFiles 让你读取一个包含多个小文本文件的文件目录并且返回每一个(filename, content)对。与 textFile 的差异是：它记录的是每个文件中的每一行。
对于 SequenceFiles，可以使用 SparkContext 的 sequenceFile[K,

最低0.47元/天解锁文章

梵天的读书笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD----Spark编程读书笔记

Spark 核心的概念是 Resilient Distributed Dataset (RDD)：一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他Hadoop 数据格式的数据源。1. 并行集合并行集合 (Parallelized collect...
复制链接

扫一扫

专栏目录