slave节点宕机恢复后可以找master节点同步数据,那master节点宕机怎么办?
Redis提供了Sentinel哨兵机制来解决master节点宕机问题。
Redis哨兵
当哨兵服务监测到master下线或宕机,哨兵会自动选举一个slave作为新的master,然后通过发布订阅模式通知其他所有的从节点,修改配置文件,让它们切换主机。
哨兵模式是一种特殊的模式,首先Redis提供了哨兵的命令,哨兵是一个独立的进程,作为进程,它会独立运行。其原理是哨兵通过发送命令,等待Redis服务器响应,从而监控运行的多个Redis实例。
哨兵的作用
Redis提供了哨兵(Sentinel)机制来实现主从集群的自动故障恢复。
监控:Sentinel 会不断检查master和slave是否按预期工作。
自动故障恢复:如果master故障,Sentinel会将一个slave提升为master。当故障实例恢复后也以新的master为主。
通知:Sentinel充当Redis客户端的服务发现来源,当集群发生故障转移时,会将最新信息推送给Redis的客户端。
架构
服务状态监控
Sentinel基于心跳机制监测服务状态,每隔1秒向集群的每个实例发送ping命令:
主观下线:如果某sentinel节点发现某实例未在规定时间响应,则认为该实例主观下线。
客观下线:若超过指定数量(quorum)的sentinel都认为该实例主观下线,则该实例客观下线。quorum值最好超过Sentinel实例数量的一半。
选举新的master
一旦发现master故障,sentinel需要在salve中选择一个作为新的master,选择依据:
首先会判断slave节点与master节点断开时间长短,如果超过指定值(down-after-milliseconds * 10)则会排除该slave节点。
然后判断slave节点的slave-priority值,越小优先级越高,如果是0则永不参与选举。
如果slave-prority一样,则判断slave节点的offset值,越大说明数据越新,优先级越高。
最后是判断slave节点的运行id大小,越小优先级越高。
如何实现故障转移
当选中了其中一个slave为新的master后(例如slave1),故障转移步骤:
1、sentinel给备选的slave1节点发送slaveof no one命令,让该节点成为master。
2、sentinel给所有其它slave发送slaveof 192.168.150.101 7002 命令,让这些slave成为新master的从节点,开始从新的master上同步数据。
3、sentinel将故障节点标记为slave,当故障节点恢复后会自动成为新的master的slave节点。
Sentinel的三个作用是什么?
1. 监控
2. 故障转移
3. 通知
Sentinel如何判断一个redis实例是否健康?
1. 每隔1秒发送一次ping命令,如果超过一定时间没有相向则认为是主观下线。
2. 如果大多数sentinel都认为实例主观下线,则判定服务下线。
故障转移步骤?
1、选定一个slave作为新的master,执行slaveof no one
2、让所有节点都执行slaveof 新master
3、修改故障节点,执行slaveof 新master