记一次使用spark累加器来实现流程数据量监控功能

最新推荐文章于 2020-05-23 11:36:52 发布

GC_NJUPT_CODE

最新推荐文章于 2020-05-23 11:36:52 发布

阅读量516

点赞数

分类专栏： scala spark

本文链接：https://blog.csdn.net/njuptcyd/article/details/97619809

版权

本文介绍了在业务场景中如何利用Spark累加器监控流程数据量。通过对比触发action和使用累加器两种方案，详细阐述了累加器在统计文件录入详单表分区、过滤脏数据等方面的高效应用，并分析了累加器在不同操作中的使用注意事项和可能遇到的问题。

摘要由CSDN通过智能技术生成

业务场景

采集工具采集的文件中以日期为标识，但是该文件中却可能包含了多天的数据，所以在统计当天推送文件记录总数时，需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系，就可以缩小详单表分区范围，尽快的统计出当天入库记录数。（这仅仅是该业务统计的一个指标，利用此处的累加器，还可以高效率的统计过滤，脏数据条数）

解决方案

方案一、再触发一次action

采即对落地的dataframe提取出分区时间列和文件全路径列，再进行去重，最终调用一次collect，即可获取上述的映射关系。

方案二、利用spark累加器

采此处定义的累加器数据结构为【String,String】其中：key为文件全路径，value为该文件的记录数。自定义累加器，主要是重写add、merge方法，累加器的add方法是针对于一个task，merge方法针对的是各个task运算结果的累加。
累加器代码样例如下：

class FilterAccumulator extends AccumulatorV2[String,mutable.Map[String,Long]]{
  private val _result =  mutable.Map[String,Long]();

  override def isZero: Boolean = true

  override def copy(): AccumulatorV2[String, mutable.Map[String, Lon

最低0.47元/天解锁文章

GC_NJUPT_CODE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记一次使用spark累加器来实现流程数据量监控功能

业务场景采集工具采集的文件中以日期为标识，但是该文件中却可能包含了多天的数据，所以在统计当天推送文件记录总数时，需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系，就可以缩小详单表分区范围，尽快的统计出当天入库记录数。（这仅仅是该业务统计的一个指标，利用此处的累加器，还可以高效率的统计过滤，脏数据条数）解决方案方案一、再触发一次action 采即对落地...
复制链接

扫一扫

专栏目录