点击上方蓝
字关注~
本篇幅介绍Flink Table/SQL中如何自定义一个聚合函数,介绍其基本用法、撤回定义以及与源码结合分析每个方法的调用位置。
基本使用
Flink Table/SQL Api中自带了一些常见的聚合函数,例如sum、min、max等,但是在实际开发中需要自定义符合业务需求的聚合函数,先从一个实际案例入手:设备随时上报状态,现在需要求出设备的当前最新状态。分析:设备上报状态会产生多条数据,现在只需要最新的状态数据即可,很明显这是多对一的聚合类型的操作,聚合逻辑是每次保留设备的最新状态与时间,下次设备上报数据时间与保留的数据时间进行比较,如果比其大则更新。实现代码如下:
publicclassLatestTimeUdfextendsAggregateFunction<Integer,TimeAndStatus>{
@OverridepublicTimeAndStatus createAccumulator(){
returnnewTimeAndStatus();
}
publicvoid accumulate(TimeAndStatus acc,Integer status,Long time){
if(time > acc.getTimes()){
acc.setStatus(status);
acc.setTimes(time);
}
}
@OverridepublicInteger getValue(TimeAndStatus timeAndStatus){
return timeAndStatus.getStatus();
}
}
在Flink Table/SQL Api中自定义聚合函数需要继承AggregateFunction<T,ACC>, 其中T表示自定义函数返回的结果类型,在这里返回的是Integer 表示状态标识,ACC表示聚合的中间结果类型,这个表示TimeAndStatus存放时间与状态数据,该函数有两个指定该类型的方法getAccumulatorType与getResultType返回的都是TypeInformation类型,如果我们的T或者ACC是复杂类型Flink不能自动抽取的则需要手动指定。其每个方法定义如下:
createAccumulator 表示创建一个中间结果数据,由于是以设备为维度那么对于每一个设备都会调用一次该方法;
accumulate 表示将流入的数据聚合到createAccumulator创建的中间结果数据中,