实时数仓建设第1问：一直使用top N,为何duplicate状态和rank状态的TTL执行策略不一样？

本文链接：https://blog.csdn.net/hbly979222969/article/details/131149783

在1.16之前 rank为了提高效率，会使用缓存降低对状态的访问。缓存就是一个普通的MAP集合，如果不适应定时器在状态过期后删除缓存数据就会导致缓存数据一直增大导致OOM。

kvSortedMap = new LRUMap<>(lruCacheSize);
public class LRUMap<K, V> extends LinkedHashMap<K, V>  
   public void onTimer(long timestamp, OnTimerContext ctx, Collector<RowData> out)   throws Exception {      
    if (stateCleaningEnabled) {         
       // cleanup cache               
    kvSortedMap.remove(keyContext.getCurrentKey());          
         cleanupState(dataState);     
            }   
     }

1.16 之后rank的状态不再采用定时器，也采用状态定义时设置TTL，为了避免缓存无法释放问题，采用了LRU缓存。

kvSortedMap = cacheBuilder.maximumSize(lruCacheSize).build();

rank的AbstractTopNFunction继承了KeyedProcessFunctionWithCleanupState方法。
duplicate的 DeduplicateFunctionBase继承了 KeyedProcessFunction。

rank的ttl是通过注册一个定时器来实现的的原因是，rank为了提高性能，在state前弄一个map缓存，如果在状态上配置ttl，则状态过期了，缓存没有被清除掉。因为用定时器来手动执行状态清除策略，当时间到了则删除缓存和清空状态，问题又来了，那么状态是否就没有更新策略了，到时间就删除了，不会因为修改而更新ttl?

如果状态一直被访问，计时器到期后不会调用清除状态方法，而是重新注册一个计时器，只有当状态没有被访问了，计时器才会进行删除。所以rank的状态也是有ttl，只是策略不一样。

专栏初衷: