Spark常用RDD算子：transformation转换算子以及action触发算子

原创

已于 2024-10-10 19:48:32 修改

· 1.8k 阅读

22 ·

版权

文章标签：

#spark #javascript #前端 #大数据 #分布式

于 2024-10-10 19:45:00 首次发布

文章目录

1. 算子（方法）介绍
2. 常用transformation算子
- 2.1 map
2.2 flatMap
3. 常用action算子

1. 算子（方法）介绍

rdd中封装了各种算子方便进行计算，主要分为两类：

transformation 转换算子
- 对RDD数据进行转化得到新的RDD，定义了一个线程任务。
- 常见：map、filter、flatMap、reduceByKey、groupByKey、sortByKey
action 触发算子
- 触发计算任务，让计算任务进行执行，得到结果。
- 触发线程执行的。
- 常见：foreach、first、count、reduce、saveAsTextFile、collect、take

RDD的转换算子大部分都是从RDD中读取元素数据（RDD中每条数据），具体计算需要开发人员编写函数传递到RDD算子中。
RDD的执行算子则大部分是用来获取数据，collect方法就是触发算子。

注意：

转换算子是lazy模式，一般不会触发job和task的运行，返回值一定是RDD。
执行算子，会触发job和task的运行，返回值一定不是RDD。

2. 常用transformation算子

2.1 map

RDD.map(lambda 参数:参数计算)
参数接受每个元素数据

# Map算子使用
# map算子主要使用长场景，一个转化rdd中每个元素的数据类型，拼接rdd中的元素数据，对rdd中的元素进行需求处理
# 需求，处理hdfs中的学生数据，单独获取每个学生的信息
from pyspark import SparkContext

sc = SparkContext()

# 1- 读取hdfs中的学生数据
rdd = sc.textFile('hdfs://node1:8020/data/stu.txt')
# 2- 使用转化算子进行数据处理
# map中的lambda表达式，必须定义一个参数，用来接收rdd中的元素数据, 注意：x参数如何处理，要看x接收的数据类型
rdd2 = rdd.map(lambda x:x.split(','))
# 3-从rdd2中获取姓名数据
rdd3 = rdd2.map(lambda x:x[1])

# lambda 函数能进行简单的数据计算，如果遇到复杂数据计算时，就需要使用自定义函数
# 获取年龄数据，并且转化年龄数据为int类型，将年龄和性别合并一起保存成元组  (男,20) (女,21)
def func(x):
    # 1-先切割数据
    data_split = x.split(',')
    # 2-转化数据类型
    age = int(data_split[2])
    # 3-拼接性别和年龄
    data_tuple = (data_split[3],age)
    return data_tuple
# 将函数的名字传递到map中，不要加括号
rdd4 = rdd.map(func)


# 触发执行算子，查看读取的数据
res = rdd.collect()
print(res)

res2 = rdd2.collect()
print(res2)

res3 = rdd3.collect()
print(res3)


res4 = rdd4.collect()
print(res4)

运行结果：
在这里插入图片描述

2.2 flatMap

处理的是二维嵌套列表数据[[1,‘张三’],[2,‘李四’],[3,‘王五’]] --> [1, ‘张三’, 2, ‘李四’, 3, ‘王五’]
rdd.flatMap(lambda 参数：[参数计算])

#flatmap算子使用
# 主要使用场景是对二维嵌套的数据降维操作 [[1,'张三'],[2,'李四'],[3,'王五']] --> [1, '张三', 2, '李四', 3, '王五']
from pyspark import SparkContext
sc = SparkContext()

#生成rdd
rdd = sc.parallelize([[1,'张三'],[2,'李四'],[3,'王五'

最低0.47元/天解锁文章