Redis Sentinel(哨兵)是一个分布式系统,用于监控和管理Redis主从集群的健康状况,并在主节点出现故障时自动进行故障转移。以下是哨兵操作的深入剖析:
1. 监控(Monitoring)
- Sentinel首先会根据配置文件或命令行参数指定的主节点进行监控。在源码中,监控功能主要体现在
sentinel.c
文件里,Sentinel通过定时任务每隔一定时间向主节点及其从节点发送INFO
和PING
命令获取其状态信息。 - 对于每个被监视的主节点,Sentinel维护了一个名为
redis_instance
的数据结构,其中包括了节点的各种状态属性,如runid
、flags
(标识节点角色和状态)、last-ping-reply
(最后一次收到PONG的时间)等。
2. 主观下线(Subjectively Down)
- 当Sentinel无法在预设时间内收到主节点的响应时,会标记该主节点为“主观下线”。这一步骤在
sentinelIsTimedout()
函数中判断,并在sentinelReset masters;
逻辑中更新状态。
3. 客观下线(Objectively Down)
- 主观下线后,Sentinel会向其他Sentinel节点发送询问,如果超过一定数量的Sentinel也认为主节点不可达,则判定主节点“客观下线”。
- 客观下线的决策过程在
sentinelTryFailureOverAllMasters()
和sentinelSendSlaveOfNoOne()
函数附近实现,涉及到一轮或多轮协商过程,通过SENTINEL is-master-down-by-addr
命令达到多数一致的判断。
4. 故障转移(Failover)
- 当主节点客观下线后,Sentinel集群中的一台Sentinel会竞选成为领导者,执行故障转移操作。领导者选举在
sentinelElectLeaderForFailover()
函数中实现。 - 成为领导者的Sentinel选择合适的从节点晋升为主节点,这个过程包括:
- 选择优先级最高的从节点。
- 检查从节点的同步进度(通过
slave-repl-offset
和master-repl-offset
的对比)。 - 发送
SENTINEL failover
命令给目标从节点,触发升级操作。
5. 更新配置(Configuration Update)
- 新主节点确定后,Sentinel会更新整个集群的配置信息,确保其他从节点改从新的主节点复制,并通知所有连接到原主节点的客户端切换到新的主节点。
- 配置更新的过程在
sentinelReconfRedisInstance()
函数中进行,包括修改从节点的slaveof
配置、更新Sentinel配置、发布通知等。
6. 通知客户端(Notification)
- Sentinel通过发布与订阅机制,向已订阅的客户端发送通知(如
+switch-master
),表明主节点已经发生变更。 - 通知逻辑主要在
sentinelPublishNewConfig()
函数及其相关调用链中实现。
7. 配置持久化
- Sentinel会定期将最新的配置信息持久化到本地磁盘,这样即使Sentinel进程重启,也能快速恢复之前的监控状态。
- 持久化操作在
sentinelSaveConfig()
函数中执行。
8. 协调与仲裁
- Sentinel之间的通信和协调非常重要,包括了对主节点状态的确认、故障转移领导者的选举以及故障转移后的新配置共识等,这些都在
sentinel.c
文件中通过网络通信模块实现。
整体来看,Redis Sentinel通过一系列严谨的步骤和逻辑实现了对Redis主从集群的自动化管理和高可用保障。源码中体现出了高度的并发控制和分布式一致性算法的应用,确保在多种异常情况下都能有效地进行故障恢复。