一、介绍
- 累加器(Accumulator)有加法运算功能。在程序运行期间,累加器能观察任务的数据变化,这在调试过程中非常有用。累加器通过add()方法累加数据,在作业结束之后获得累加器的最终结果。
- 最简单的累加器是一个计数器(Counter),可以使用Accumulator.add()方法进行累加。在作业结束时,Flink将合并所有结果,并将最终结果发送给客户端。
- 目前Flink内置的几种累加器:
- Counter:计数器,包含IntCounter、LongCounter、DoubleCounter
- Histogram:离散数据直方图的实现。它是一个整数到整数的映射,可以用来计算值的分布
二、累加器的使用
-
创建累加器
private IntCounter numLines = new IntCounter();
-
在open()方法中注册累加器,然后后定义累加器的名称
getRuntimeContext().addAccumulator("myCounter",this.numLines);
-
使用累加器
this.numLines.add(1);
-
获取累加器的结果
将结果存储在JobExecutionResult对象中,该对象是从执行环境的execute()方法返回的(仅在作业执行完成时起作用)
myJobExecutionResult.getAccumulatorResult("myCounter");
Flink会在内部合并所有具有相同名称的累加器
三、自定义累加器
自定义累加器可以通过继承Accumulator或SimpleAccumulator来实现
- Accumulator<V,R>:该接口最灵活,它主要添加的值定义类型V,并且为最终结果定义类型R。对于直方图,V代表数字,R代表直方图
- SimpleAccumulator:适用于两种类型相同的情况,如计数器