spark RDD常用算子(三)

本文介绍了Spark RDD的常用算子,包括first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue和lookup。这些操作分别用于获取第一个元素、指定数量的元素、所有元素、元素计数、按降序取前n个元素、排序取前n个元素、遍历元素、折叠操作、累加求和以及统计元素出现次数。还特别提到了lookup函数在不同情况下的处理方式。
摘要由CSDN通过智能技术生成

- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup


  • 算法解释
  1. first:返回第一个元素
  2. take:rdd.take(n)返回第n个元素
  3. collect:rdd.collect() 返回 RDD 中的所有元素
  4. count:rdd.count() 返回 RDD 中的元素个数
  5. top:按照降序的或者指定的排序规则,返回前n个元素
  6. takeOrdered:对RDD元素进行升序排序,取出前n个元素并返回,也可以自定义比较器(这里不介绍),类似于top的相反的方法
  7. foreach:循环RDD中的每个元素
  8. fold:rdd.fold(num)(func) 一般不用这个函数和 reduce() 一 样, 但是提供了初始值num,每个元素计算时,先要合这个初始值进行折叠, 注意,这里会按照每个分区进行fold,然后分区之间还会再次进行fold
  9. reduce:并行整合RDD中所有数据, 类似于是scala中集合的reduce
  10. countByValue:各元素在 RDD 中出现的次数 返回{(key1,次数),(key2,次数),…(keyn,次数)}
  11. Lookup函数对(Key,Value)型的RD
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值