Spark rdd之count详解

南风知我意丿

于 2022-11-01 18:21:44 发布

阅读量720

点赞数

分类专栏： Spark 文章标签： spark 大数据 scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lzx116/article/details/127638678

版权

Spark 专栏收录该内容

57 篇文章 2 订阅

订阅专栏

文章目录

- 源码
- 源码实现

源码

RDD.scala

//各个分区在Executor端统计，driver聚合

def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

Utils.scala

//该方法调用的是迭代器，读一条加一条。而不是全部数据加载进内存去计数

def getIteratorSize(iterator: Iterator[_]): Long = {
    var count = 0L
    while (iterator.hasNext) {
      count += 1L
      iterator.next()
    }
    count //返回该分区的数量
  }

源码实现

val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3, 5, 67, 7889, 87987, 34, 3245, 643),3)
    println(rdd1.count())

    // todo count的底层实现
    // 1.得到三个分区对应的数量
    val array: Array[Long] = sc.runJob(rdd1, (iter: Iterator[Int]) => {
      var count = 0L
      while (iter.hasNext) {
        count += 1L
        iter.next()
      }
      count
    })
		array.foreach(println)
    
// 2.数组求和，计算总数
  println(array.sum)

在这里插入图片描述

南风知我意丿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark rdd之count详解

Spark rdd之count详解
复制链接

扫一扫

专栏目录

南风知我意丿 CSDN认证博客专家 CSDN认证企业博客

码龄7年

201: 原创

5万+: 周排名

49万+: 总排名

27万+: 访问

: 等级

2204: 积分

55: 粉丝

99: 获赞

59: 评论

529: 收藏

私信

关注

热门文章

分类专栏

数仓 2篇
小白学java 16篇
Flink 7篇
kafka 6篇
Hbase 28篇
SQL 14篇
Data Works 6篇
Doris 5篇
Hadoop 6篇
Hive 3篇
算法
开发工具使用 6篇
Dolphinscheduler 3篇
DataX 1篇
JVM 2篇
Linux 6篇
Clickhouse 4篇
Spark 57篇
Spark-SQL 24篇
Spark-Streaming 7篇
Spark-Hbase 12篇
mysql 9篇
scala 13篇
Maven 7篇

最新评论

Kafka Eagle删除Topic时出现Enter Admin Token
南风知我意丿: 认真看了吗？？？我不是写了解决
Kafka Eagle删除Topic时出现Enter Admin Token
李文倩: 这个token是什么啊，填什么？
DolphinScheduler之任务实例卡在停止任务解决办法
hellostory: 你被官网点名批评了！应该修改表：t_ds_task_instance，赶紧更正，不要误人子弟。
Spark Sql之count(distinct)分析&&学习&&验证
wudilinlin123: ”hive往往只用一个 reduce 来处理全局聚合函数，最后导致数据倾斜“ ，这句话怎么这么奇怪，都只有一个reduce了，还有数据倾斜的问题。。。
DolphinScheduler之任务实例卡在停止任务解决办法
Mranth: 博主你好，在我的情况下，我直接修改工作流实例的状态还是不行，改完之后，前端的状态会自动显示为正在运行，我猜测是工作流实例的状态是通过检测任务实例的状态判断的。我要先修改任务实例的状态，这样工作流实例的状态会自动变为失败。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。