spark rdd 做判断_Spark的transformation和action算子介绍

最新推荐文章于 2022-03-24 02:30:00 发布

QQ祥祥

最新推荐文章于 2022-03-24 02:30:00 发布

阅读量251

点赞数

文章标签： spark rdd 做判断

本文链接：https://blog.csdn.net/weixin_29470893/article/details/113318275

版权

Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Driver程序。

例如，map就是一种transformation操作，它用于将已有RDD的每个元素传入一个自定义的函数，并获取一个新的元素，然后将所有的新元素组成一个新的RDD。而reduce就是一种action操作，它用于对RDD中的所有元素进行聚合操作，并获取一个最终的结果，然后返回给Driver程序，transformation是不会返回结果给Driver端的。

transformation的特点就是lazy特性。lazy特性指的是，如果一个spark应用中只定义了transformation操作，那么即使你执行该应用，这些操作也不会执行。也就是说，transformation是不会触发spark程序的执行的，它们只是记录了对RDD所做的操作，但是不会自发的执行。只有当transformation之后，接着执行了一个action操作，那么所有的transformation才会执行。Spark通过这种lazy特性，来进行底层的spark应用执行的优化，避免产生过多中间结果。

action操作执行，会触发一个spark job的运行，从而触发这个action之前所有的transformation的执行。这是action的特性。

在Spark中常用transformation主要有以下几个：

map -> 将RDD中的每个元素传入自定义函数，获取一个新的元素，然后用新的元素组成新的RDD
filter ->对RDD中每个元素进行判断，如果返回true则保留，返回false则剔除。
flatMap ->与map类似，但是对每个元素都可以返回一个或多个新元素。
gropuByKey->根据key进行分组，每个key对应一个Iterable<value>
reduceByKey->对每个key对应的value进行reduce操作。
sortByKey->对每个key对应的value进行排序操作。
join->对两个包含<key,value>对的RDD进行join操作，每个key join上的pair，都会传入自定义函数进行处理。
cogroup->同join，但是是每个key对应的Iterable<value>都会传入自定义函数进行处理。

在Spark中常用transformation主要有以下几个：

reduce->将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合，值与第三个元素聚合，值与第四个元素聚合，以此类推。
collect->将RDD中所有元素获取到本地客户端。
count->获取RDD元素总数。
take(n)->获取RDD中前n个元素。
saveAsTextFile->将RDD元素保存到文件中，对每个元素调用toString方法
countByKey->对每个key对应的值进行count计数。
foreach->遍历RDD中的每个元素。

QQ祥祥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark rdd 做判断_Spark的transformation和action算子介绍

Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Driver程序。例如，map就是一种transformation操作，它用于将已有RDD的每个元素传入一个自定义的函数，并获取一个新的元素，然后将所有的新...
复制链接

扫一扫