业务场景
采集工具采集的文件中以日期为标识,但是该文件中却可能包含了多天的数据,所以在统计当天推送文件记录总数时,需要记录当天的文件录入了详单表的哪些分区。后续业务开发利用这种映射关系,就可以缩小详单表分区范围,尽快的统计出当天入库记录数。(这仅仅是该业务统计的一个指标,利用此处的累加器,还可以高效率的统计过滤,脏数据条数)
解决方案
方案一、再触发一次action
采即对落地的dataframe提取出分区时间列和文件全路径列,再进行去重,最终调用一次collect,即可获取上述的映射关系。
方案二、利用spark累加器
采此处定义的累加器数据结构为【String,String】其中:key为文件全路径,value为该文件的记录数。自定义累加器,主要是重写add、merge方法,累加器的add方法是针对于一个task,merge方法针对的是各个task运算结果的累加。
累加器代码样例如下:
class FilterAccumulator extends AccumulatorV2[String,mutable.Map[String,Long]]{
private val _result = mutable.Map[String,Long]();
override def isZero: Boolean = true
override def copy(): AccumulatorV2[String, mutable.Map[String, Lon