记一次Flink消费kafka数据恢复机制

现在我有一个数据架构:Flink消费kafka,开启windows窗口聚合存ES。某天的晚上Flink挂机,未加报警机制,3小时后才发现。如何才能把丢失的Kafka数据补充回来?

大家都知道Flink可以配置Kafka对offset的处理方式:

1)setStartFromLatest  //从最后一个Kafka offset开始消费

2)setStartFromGroupOffsets //从你的group对应消费的最后一个offset后的数据进行消费

3)setStartFromEarliest  //从kafka一开始的数据开始消费

4)setStartFromTimestamp  //从某个时间点开始消费

5)setStartFromSpecificOffsets //从某个特殊的offset开始消费

        我们要解决以上问题,毋庸置疑要选择使用第二种方式,kafka版本<=0.8,需要配置消费时,上报你消费的offset,后期版本就自动上报了,此时,kafka服务会帮你记录你的group 到底消费到了哪个offset,下次重启时,kafka顺理成章的知道要从哪个offset开始给你推送数据。

       不过,Flink有一套自己的DR机制,只需要你启动服务时开始checkpoint,此时Flink作业会根据你给出的频率定时生成分布式快照,并存储在你指定的hdfs位置,此时,这个数据结构中亦存储了一份当前作业消费kafka的情况:哪个partition消费到了哪个offset。当你发现问题并重启Flink时,Flink作业会告诉kafka我要从哪个offset开始消费,这样我们的数据也就恢复了。   

     对这两种方式,Flink作业会优先使用自己本地CheckPoint中存储的offset,Kafka中存储的offset使用优先级较低。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值