Spark RDD算子

最新推荐文章于 2024-07-25 23:49:05 发布

shijiuhuaR

最新推荐文章于 2024-07-25 23:49:05 发布

阅读量450

点赞数 4

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shijiuhuaR/article/details/139744647

版权

RDD被创建后是只读的，不允许修改。Spark提供了丰富的用于操作RDD的方法，这些方法被称为算子。一个创建完成的RDD只支持两种算子：转化（Transformation）算子和行动（Action）算子。

转化算子

转化算子负责对RDD中的数据进行计算并转化为新的RDD。Spark中的所有转化算子都是惰性的，因为它们不会立即计算结果，而只是记住对某个RDD的具体操作过程，直到遇到行动算子才会与其一起执行。

- map()算子

map()是一种转化算子，它接收一个函数作为参数，并把这个函数应用于RDD的每个元素，最后将函数的返回结果作为结果RDD中对应元素的值。

- filter()算子

filter()算子通过函数对源RDD的每个元素进行过滤，并返回一个新的RDD。

- flatMap()算子

与map()算子类似，但是每个传入函数的RDD元素会返回0到多个元素，最终会将返回的所有元素合并到一个RDD。

- reduceByKey()算子

reduceByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成一个元素。该元素的key不变，value可以聚合成一个列表或者进行求和等操作。最终返回的RDD的元素类型和原有类型保持一致。

- groupByKey()算子

groupByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成为一个元素。该元素的key不变，value则聚集到一个集合中。

- union()算子

union()算子将两个RDD合并为一个新的RDD，主要用于对不同的数据来源进行合并，两个RDD中的数据类型要保持一致。

- sortBy()算子

sortBy()算子将RDD中的元素按照某个规则进行排序。该算子的第一个参数为排序函数，第二个参数是一个布尔值，指定升序（默认）或降序。若需要降序排列，则需将第二个参数置为false。

- sortByKey()算子

sortByKey()算子将(key,value)形式的RDD按照key进行排序。默认升序，若需降序排列，则可以传入参数false。

- join()算子

join()算子将两个(key,value)形式的RDD根据key进行连接操作，相当于数据库的内连接（Inner Join），只返回两个RDD都匹配的内容。

- intersection()算子

intersection()算子对两个RDD进行取交集操作，返回一个新的RDD。

- distinct()算子

distinct()算子对RDD中的数据进行去重操作，返回一个新的RDD。

行动算子

Spark中的转化算子并不会马上进行运算，而是在遇到行动算子时才会执行相应的语句，触发Spark的任务调度。Spark常用的行动算子及其介绍如表所示。

- reduce()算子

将数字1~100所组成的集合转为RDD，然后对该RDD使用reduce()算子进行计算，统计RDD中所有元素值的总和。

- count()算子

统计RDD集合中元素的数量。

- countByKey()算子

List集合中存储的是键值对形式的元组，使用该List集合创建一个RDD，然后对其使用countByKey()算子进行计算。

- take(n)算子

返回集合中前5个元素组成的数组。

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD算子

reduceByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成一个元素。 groupByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成为一个元素。与map()算子类似，但是每个传入函数的RDD元素会返回0到多个元素，最终会将返回的所有元素合并到一个RDD。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。