实时数仓建设第1问: 一直使用top N,为何duplicate状态和rank状态的TTL执行策略不一样?

在1.16之前 rank为了提高效率,会使用缓存降低对状态的访问。缓存就是一个普通的MAP集合,如果不适应定时器在状态过期后删除缓存数据就会导致缓存数据一直增大导致OOM。

kvSortedMap = new LRUMap<>(lruCacheSize);
public class LRUMap<K, V> extends LinkedHashMap<K, V>  
   public void onTimer(long timestamp, OnTimerContext ctx, Collector<RowData> out)   throws Exception {      
    if (stateCleaningEnabled) {         
       // cleanup cache               
    kvSortedMap.remove(keyContext.getCurrentKey());          
         cleanupState(dataState);     
            }   
     }

1.16 之后rank的状态不再采用定时器,也采用状态定义时设置TTL,为了避免缓存无法释放问题,采用了LRU缓存。

kvSortedMap = cacheBuilder.maximumSize(lruCacheSize).build();
  • rank的AbstractTopNFunction继承了KeyedProcessFunctionWithCleanupState方法。
  • duplicate的 DeduplicateFunctionBase继承了 KeyedProcessFunction。

rank的ttl是通过注册一个定时器来实现的的原因是,rank为了提高性能,在state前弄一个map缓存,如果在状态上配置ttl,则状态过期了,缓存没有被清除掉。因为用定时器来手动执行状态清除策略,当时间到了则删除缓存和清空状态,问题又来了,那么状态是否就没有更新策略了,到时间就删除了,不会因为修改而更新ttl?

如果状态一直被访问,计时器到期后不会调用清除状态方法,而是重新注册一个计时器,只有当状态没有被访问了,计时器才会进行删除。所以rank的状态也是有ttl,只是策略不一样。

专栏初衷:

  • 要想快速建设实时数仓,对齐离线数仓分层,首选Flink SQL,相比datastream 代码,Flink SQL可大幅提升10倍实时数仓建设落地时间。
  • 作者位于大厂实时数仓团队,目前运行实时任务3000+,实时集群规模2万CU,集群checkpoint峰值5TB,单任务最大QPS峰值50W。
  • 本专栏将分享作者在实时数仓建设过程中遇到的细节点,帮组大家快速建设实时数仓。

作者信息:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暴躁IT老绵羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值