记一次使用spark累加器来实现流程数据量监控功能

本文介绍了在业务场景中如何利用Spark累加器监控流程数据量。通过对比触发action和使用累加器两种方案,详细阐述了累加器在统计文件录入详单表分区、过滤脏数据等方面的高效应用,并分析了累加器在不同操作中的使用注意事项和可能遇到的问题。
摘要由CSDN通过智能技术生成

业务场景

    采集工具采集的文件中以日期为标识,但是该文件中却可能包含了多天的数据,所以在统计当天推送文件记录总数时,需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系,就可以缩小详单表分区范围,尽快的统计出当天入库记录数。(这仅仅是该业务统计的一个指标,利用此处的累加器,还可以高效率的统计过滤,脏数据条数)

解决方案

方案一、再触发一次action

    采即对落地的dataframe提取出分区时间列和文件全路径列,再进行去重,最终调用一次collect,即可获取上述的映射关系。

方案二、利用spark累加器

    采此处定义的累加器数据结构为【String,String】其中:key为文件全路径,value为该文件的记录数。自定义累加器,主要是重写add、merge方法,累加器的add方法是针对于一个task,merge方法针对的是各个task运算结果的累加。
累加器代码样例如下:

class FilterAccumulator extends AccumulatorV2[String,mutable.Map[String,Long]]{
  private val _result =  mutable.Map[String,Long]();

  override def isZero: Boolean = true

  override def copy(): AccumulatorV2[String, mutable.Map[String, Lon
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值