时间同步服务器优化方案
一. 当前问题及结构描述:
1) 主、备2台时间服务器,分别和不同官方源同步校正时间;
2) 畅游所有服务器,只和主时间服务器做同步;
3) 备时间服务器,作用是提供主时间服务器内网校正和比对监控,当主备差异时间超过30秒,会预警;
但备时间服务器不提供热切换功能
4) 本次问题根本原因:主时间服务器硬件损坏,无法连上;导致线上时间同步机制失效
二. 优化方案:
1. 优化后结构(红色为优化部分):
1) 通过keepalive机制,配置原时间主服务器的IP为前端虚IP (业务线影响最小化),绑在其中1台时间服务器上
2) 后端2台时间服务器,通过北显机房2个私网ip实现心跳监听;当时间服01宕机,会把前端虚IP热漂移到另一台时间服02,对外ntp同步服务不受影响,01和02的时间同步频率为10秒一次
3) 增加同步机制有效性监控,时间相差1秒或者同步不成功及时告警
当前时间同步服务器结构图:
优化后时间同步服务器架构:
2. 优化后说明:
| 优化前 | 优化后 | 备注 |
时间同步机制 | 业务和主时间服务器做同步 | 业务和时间同步服务前端VIP做同步 | 业务线同步方式不需要修改 |
时间同步冗余互备 | 主时间服务器 单点 | 前端VIP后面对应2台主备冗余时间服务器,2台之间误差小于1秒 | 新增主备热切换机制,避免单点故障 |
监控方式 | Ø 主备时间服务器时间差小于30秒 Ø 主时间服务器宕机监控 Ø 主时间服务器ntp服务监控 Ø 所有监控都有邮件报警 | Ø 时间准确性监控: l 与外部官方源每64秒同步一次 l 主备时间服务器时间差处于毫秒级,误差超过1秒告警,超过5秒停止服务并报警 Ø 服务监控: l ntp服务监控,服务或进程丢失立刻报警keepalived服务监控,服务或进程丢失、发生“脑裂”立刻报警 l 各机房时间同步监控,确保各机房都能与时间服务器同步,同时确保时间同步服务可用 Ø 物理服务器监控: l CPU、内存、磁盘监控、温度、电源、raid卡 l 及时更换过保机器 Ø 所有报警在邮件的基础上增加短信或微信报警 |
|
1) 上述优化方案,已在测试机验证可行;
2) 方案优点:能实现的是2台时间服务器互备,不再因单点故障影响时间同步服务;
3) 新方案实施:
a) 根据计划排期,从小项目实施,逐步分批替换现有业务的时间同步机制,预计1月底完成;
b) DB服务器时间同步方式修改为ntpd服务方式进行,这样可以避免时间立即同步成正确时间,造成业务影响,会把时间差分多次进行平滑同步;