spark RDD常用算子（三）

最新推荐文章于 2024-01-16 14:03:30 发布

程序小蚂蚁

最新推荐文章于 2024-01-16 14:03:30 发布

阅读量431

点赞数

分类专栏： spark 文章标签： spark 算子 spark Action操作 scala spark常用算子

本文链接：https://blog.csdn.net/u010020897/article/details/83617365

版权

本文介绍了Spark RDD的常用算子，包括first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue和lookup。这些操作分别用于获取第一个元素、指定数量的元素、所有元素、元素计数、按降序取前n个元素、排序取前n个元素、遍历元素、折叠操作、累加求和以及统计元素出现次数。还特别提到了lookup函数在不同情况下的处理方式。

摘要由CSDN通过智能技术生成

- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup

算法解释

first：返回第一个元素

take：rdd.take(n)返回第n个元素

collect：rdd.collect() 返回 RDD 中的所有元素

count：rdd.count() 返回 RDD 中的元素个数

top：按照降序的或者指定的排序规则，返回前n个元素

takeOrdered：对RDD元素进行升序排序,取出前n个元素并返回，也可以自定义比较器（这里不介绍），类似于top的相反的方法

foreach：循环RDD中的每个元素

fold：rdd.fold(num)(func) 一般不用这个函数和 reduce() 一样，但是提供了初始值num,每个元素计算时，先要合这个初始值进行折叠, 注意，这里会按照每个分区进行fold，然后分区之间还会再次进行fold

reduce：并行整合RDD中所有数据，类似于是scala中集合的reduce

countByValue：各元素在 RDD 中出现的次数返回{(key1,次数),(key2,次数),…(keyn,次数)}

Lookup函数对（Key，Value）型的RD