Flink CheckPoint : Exceeded checkpoint tolerable failure threshold

一、问题描述

超过了检查点可容忍的故障阈值
在这里插入图片描述

在这里插入图片描述

二、解决步骤

1、检查checkpoint的设置

明显,checkpoint超时了,于是,我下意识地去,检查checkpoint的设置
代码中的设置如下:

		// 每 ** ms 开始一次 checkpoint
        env.enableCheckpointing(10*1000);
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
        // 确认 checkpoints 之间的时间会进行 ** ms
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
        // 开启在 job 中止后仍然保留的 externalized checkpoints
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        // 允许在有更近 savepoint 时回退到 checkpoint
        env.getCheckpointConfig().setPreferCheckpointForRecovery(true);

尝试更改一下timeout时间,从1分钟改为10分钟,重新打包上线。
然后查看UI界面,发现checkpoint仍然无法正常进行,状态一直是IN_PROGRESS,没有进展,只不过从等待1分钟变成了10分钟,程序最后还是挂掉
在这里插入图片描述
这个时候,考虑不是checkpoint设置问题,而是程序有bug,资源没有释放或者其他问题,导致程序卡住了,以至于checkpoint超时。

2、检查处理逻辑

在这里插入图片描述
发现数据通道阻塞,经过打印数据发现,任务中异步IO从HBase中查询数据,有key不存在,关联任务超时,导致checkpoint失败
在这里插入图片描述
打印维度关联超时的数据:
在这里插入图片描述

3、问题复盘

问题产生原因:hbase scan性能低下,导致查询维度数据超时,创建检查点失败
正常来说,维度查询没有对应数据也不会超时的,只是返回空值,但是scan全盘扫描查询时间较长,所以使用get方式精准查询。

三、解决方案

hbase的查询实现只提供两种方式:
按指定rowkey获取唯一一条记录:get方法。
按指定条件获取一批记录:scan方法。
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值