Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

Teeyohuang

已于 2022-05-25 22:15:24 修改

阅读量2.2k

点赞数 1

分类专栏： spark 文章标签： spark 大数据学习

于 2022-03-07 22:19:42 首次发布

本文链接：https://blog.csdn.net/Teeyohuang/article/details/120424308

版权

在这里插入图片描述

Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

前言

提示：本篇博客讲的是RDD的操作中的转换操作，即 RDD Transformations

主要参考链接：

1.PySpark RDD Transformations with examples
2.Apache spark python api

一、PySpark RDD 转换操作简介

PySpark RDD 转换操作(Transformation) 是惰性求值，用于将一个 RDD 转换/更新为另一个。
由于RDD本质上是不可变的，转换操作总是创建一个或多个新的RDD而不更新现有的RDD，因此，一系列RDD转换创建了一个RDD谱系。
RDD LINEAGE

1.窄操作

这些计算数据存在于单个分区上，这意味着分区之间不会有任何数据移动。
NARROW-transformation

常见的执行窄操作的一般有：map()，mapPartition()，flatMap()，filter()，union()

2.宽操作

这些计算数据存在于许多分区上，这意味着分区之间将有数据移动以执行更广泛的转换。由于这些对数据进行混洗，因此它们也称为混洗转换，所以与窄操作相比，是更加昂贵的操作。

常见的执行宽操作的一些方法是：groupBy(), groupByKey(), join(), repartition() 等
wider-transformation

二.常见的转换操作表 & 使用例子

0.创建一个示例rdd, 后续的例子基本以此例展开

data_list = [ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]
# 注意该列表中包含有两层tuple嵌套，相当于列表中的元素是一个 (5，4) 二维的tuple

rdd_test = spark.sparkContext.parallelize(data_list)
print("rdd_test:\n", rdd_test.collect())

则输出为：

[ ((10,1,2,3), (10,1,2,4), (10,1,2,4), (20,2,2,2), (20,1,2,3)) ]

1.`map(<func>)`

是所有转换操作中最基本的。
它应用一个具名函数或者匿名函数，对数据集内的所有元素执行同一操作。
pyspark.RDD.map

# the example of map
rdd_map_test = rdd_test.map(lambda x: (x[0], x[3]))
print("rdd_map_test\n", rdd_map_test.collect())

相当于只从第一层 tuple 中取出了第0和第3个子tuple, 输出为：

[((10,1,2,3),

最低0.47元/天解锁文章

Teeyohuang

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pyspark学习笔记（五）RDD操作(一)_RDD转换操作

Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（一）—序言及目录Pyspark学习笔记（二）— spark-submit命令Pyspark学习笔记（三）— SparkContext 与 SparkSessionPyspark学习笔记（四）弹性分布式数据集 RDD（上）Pyspark学习笔记（四）弹性分布式数据集 RDD（下）Pyspark学习笔记（五）RDD操作(一)_RDD行动操作文章目录Pyspark学习笔记专栏系列文章目录Pyspark学习笔记（五）RDD操作(一)_.
复制链接

扫一扫