说明:
作者:王琦
来源:美团技术团队
最新互联网大厂面试真题、Java程序员面试策略(面试前的准备、面试中的技巧)请访问GitHub
我们生活中随处可见各种巡检系统,比如电力巡检、消防检查等,正是这些巡检工作,我们才能在稳定的环境下进行工作、生活。巡检对于数据库或者其他 IT 系统来说也同样至关重要,特别是在降低风险、提高服务稳定性方面起到了非常关键作用。
一、背景
为了保障数据库的稳定运行,以下核心功能组件必不可少:
其中,数据库巡检作为运维保障体系最重要的环节之一,能够帮助我们发现数据库存在的隐患,提前治理,做到防患于未然。对于大规模集群而言,灵活健壮的自动化巡检能力,至关重要。
任何系统都会经历一个原始的阶段,最早的巡检是由中控机 + 定时巡检脚本 + 前端展示构成的。但是,随着时间的推移,老巡检方案逐渐暴露出了一些问题:
- 巡检定时任务执行依赖中控机,存在单点问题;
- 巡检结果分散在不同的库表,无法进行统计;
- 巡