- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup
- 算法解释
- first:返回第一个元素
- take:rdd.take(n)返回第n个元素
- collect:rdd.collect() 返回 RDD 中的所有元素
- count:rdd.count() 返回 RDD 中的元素个数
- top:按照降序的或者指定的排序规则,返回前n个元素
- takeOrdered:对RDD元素进行升序排序,取出前n个元素并返回,也可以自定义比较器(这里不介绍),类似于top的相反的方法
- foreach:循环RDD中的每个元素
- fold:rdd.fold(num)(func) 一般不用这个函数和 reduce() 一 样, 但是提供了初始值num,每个元素计算时,先要合这个初始值进行折叠, 注意,这里会按照每个分区进行fold,然后分区之间还会再次进行fold
- reduce:并行整合RDD中所有数据, 类似于是scala中集合的reduce
- countByValue:各元素在 RDD 中出现的次数 返回{(key1,次数),(key2,次数),…(keyn,次数)}
- Lookup函数对(Key,Value)型的RD
spark RDD常用算子(三)
最新推荐文章于 2024-01-16 14:03:30 发布
本文介绍了Spark RDD的常用算子,包括first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue和lookup。这些操作分别用于获取第一个元素、指定数量的元素、所有元素、元素计数、按降序取前n个元素、排序取前n个元素、遍历元素、折叠操作、累加求和以及统计元素出现次数。还特别提到了lookup函数在不同情况下的处理方式。
摘要由CSDN通过智能技术生成