大数据学习-Spark算子（三）之RDD的其他操作

最新推荐文章于 2023-04-11 12:00:00 发布

WeixinX_

最新推荐文章于 2023-04-11 12:00:00 发布

阅读量240

点赞数 2

分类专栏：大数据文章标签： spark 大数据

本文链接：https://blog.csdn.net/mallolongZuo/article/details/108522626

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Spark算子（三）之RDD的其他操作

大数据学习-Spark算子（一）之基本RDD操作

大数据学习-Spark算子（二）之Pair RDD操作

文章目录

Spark算子（三）之RDD的其他操作
- 5、RDD的其他操作

5、RDD的其他操作

1）`glom()`：

将RDD的每个分区中的类型为T的元素转换成数组Array[T]。

读取rdd1各分区元素。

>>> rdd1 = sc.parallelize(['a','b','c','d','e'],2)
>>> n = rdd1.glom()
>>> print(n.collect())
[['a', 'b'], ['c', 'd', 'e']]

2）`getNumPartitions()`：

读取RDD分区数

>>> rdd1 = sc.parallelize(range(10),2)
>>> n = rdd1.getNumPartitions()
>>> print(n)
2

3）`coalesce(numPartitions,shuffle=False)`：

将RDD的分区数减小到numPartitions个。当数据集通过过滤规模减小时，使用这个操作可以提升性能。

对rdd1重新调整分区。

>>> rdd1 = sc.parallelize(range(9),3)
>>> rdd2 = rdd1.coalesce(2)
>>> print(rdd1.glom().collect())
[[0, 1, 2], [3, 4, 5], [6, 7, 8]]
>>> print(rdd2.glom().collect())
[[0, 1, 2], [3, 4, 5, 6, 7, 8]]

4）`repartition(numPartitions)`：

重组数据，数据被重新随机分区为numPartitions个，numPartitions可以比原来大，也可以比原来小，平衡各个分区。这一操作会将整个数据集在网络中重组。

对rdd1重新随机分区。

>>> rdd1 = sc.parallelize(range(9),3)
>>> rdd2 = rdd1.repartition(3)
>>> print(rdd1.glom().collect())
[[0, 1, 2], [3, 4, 5], [6, 7, 8]]
>>> print(rdd2.glom().collect())
[[], [0, 1, 2, 6, 7, 8], [3, 4, 5]]

5）`cache()`：

将RDD元素从磁盘缓存到内存，相当于persist(MEMORY_ONLY)函数的功能。

将rdd1元素缓存到内存。

>>> rdd1 = sc.parallelize(range(9),3)
>>> rdd1.cache()
ParallelCollectionRDD[190] at readRDDFromFile at PythonRDD.scala:262

6）`persist()`：

对RDD元素进行持久化操作，持久化级别包括

MEMORY_ONLY、

MEMORY_ONLY_SER、

MEMORY_AND_DISK、

MEMORY_AND_DISK_SER、

DISK_ONLY。

RDD还有一个方法称为unpersist()，调用该方法可以手动把持久化的RDD从缓存中删除。

将rdd1元素缓存到磁盘。

>>> import pyspark
>>> rdd1 = sc.parallelize([('a',1),('b',2),('c',3)])
>>> rdd1.persist(pyspark.StorageLevel.DISK_ONLY)
ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:262

7）`pipe(command,[envVars])`：

将驱动程序中的RDD交给shell处理（外部进程），RDD元素作为标准输入传给脚本，脚本处理之后的标准输出会作为新的RDD返回给驱动程序。

显示系统时间。

>>> rdd1 = sc.parallelize(["www.baidu.com"],2)
>>> rdd2 = rdd1.pipe("date")
>>> print(rdd2.collect())
[u'Thu Sep 10 19:41:38 CST 2020', u'Thu Sep 10 19:41:38 CST 2020']

8）`wholeTextFiles(path:String,minPartitions:Int)`：

读取整个文件内容，每个文件读取为一个record，返回的是一个key-value的pair RDD，key是这个问而建的路径名，value是这个文件的具体内容。

读取整个文件内容。

>>> rdd1 = sc.wholeTextFiles("file:///bigdata/source/word.txt")
>>> print(rdd1.collect())
[(u'file:/bigdata/source/word.txt', u'hello world hadoop\r\nhello ok hive\r\nhadoop hello\r\n')]

file://指的是机器本地的文件

9）`saveAsTextFile(path,compressionCodecClass=None)`：

把RDD保存为文本文件。

>>> rdd1 = sc.parallelize([('a',1),('b',2),('c',3)],2)
>>> rdd1.saveAsTextFile("file:///bigdata/source/test")
[root@master ~]# cat /bigdata/source/test/*
('a', 1)
('b', 2)
('c', 3)

WeixinX_

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据学习-Spark算子（三）之RDD的其他操作

Spark算子（三）之RDD的其他操作大数据学习-Spark算子（一）之基本RDD操作大数据学习-Spark算子（二）之Pair RDD操作文章目录Spark算子（三）之RDD的其他操作5、RDD的其他操作1）`glom()`：2）`getNumPartitions()`：3）`coalesce(numPartitions,shuffle=False)`：4）`repartition(numPartitions)`：5）`cache()`：6）`persist()`：7）`pipe(command,[
复制链接

扫一扫