1. 事前:
a. 任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈
b. 指标层面:根据业务要求,上线实时指标前进行相同口径的实时、离线指标的验数
2. 事中:
a. 任务层面:贴源层监控 kafka 堆积延迟等报警检测手段,用于事中及时发现问题。比如的普罗米修斯监控 lag 时长
b. 指标层面:根据指标特点进行实时指标同环比对比监控、实时离线指标结果对比监控。这里的监控算法可以是阈值、时序异常算法等。检测到波动过大就报警。比如最简单的方式是可以通过将实时结果导入到离线,然后和离线指标对比;也可以构建异构数据源对比工具进行对比
3. 事后:
a. 任务层面:对于可能发生的故障类型,构建用于故障修复、数据回溯的实时任务备用链路
b. 指标层面:构建指标修复预案,根据不同的故障类型,判断是否可以使用实时任务进行修复。如果实时无法修复,构建离线恢复链路,以便使用离线数据进行覆写修复
Flink面试_001、你们公司是通过什么样的监控及保障手段来保障实时指标的质量?比如事前事中事后是怎么做的?
最新推荐文章于 2024-10-27 22:44:53 发布