统计spark读取的文件的大小

我不想名字重复

已于 2022-07-22 08:52:21 修改

阅读量858

点赞数

分类专栏： Spark 文章标签： spark scala 大数据

于 2022-07-07 15:22:47 首次发布

本文链接：https://blog.csdn.net/l_mr_ll/article/details/125659931

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

- - 前景说明
  - 代码

前景说明

spark读取到文件后，需要统计一下读取的文件大小(处理的文件大小)

解决办法：使用spark提供的累加器

代码

//声明个累加器
val dataSize=spark.sparkContext.longAccumulator("dataSize")

//spark读取的数据
val df:DataFream = ...
df.foreach(a=>{
      dataSize.add(a.toString().getBytes("UTF-8").length)
    })
//测试时,如果没记错的话,读取的文件无汉字时,统计大小正常；有汉字时,统计就偏大些
//最后的dataSize的值就是统计的文件大小