Redis哨兵模式(sentinel)
概述
主从切换技术的方法是:当主服务器宕机后,需要手动把一台从服务器切换为主服务器,这就需要人工干预,费事费力,还会造成一段时间内服务不可用。
手动调节不是一种推荐的方式,更多的时候我们优先考虑哨兵(Sentinel)
模式。Redis从2.8
开始正式提供了Sentinel
(哨兵)架构来解决这个问题。
哨兵模式相当于谋朝篡位的自动版,能够后台监控主机是否故障,如果故障了根据投票数自动将从库转换为主库。
单哨兵模式
哨兵模式是一种特殊的模式,首先Redis
提供了哨兵的命令,哨兵是一个独立的进程,作为进程,它会独立运行,其原理就是哨兵通过发送命令,等到Redis
服务器响应,从而监控运行的多个Redis
实例。
哨兵的两个作用:
- 通过发送命令,让
Redis
服务器返回监控其运行状态,包括主服务器和从服务器。 - 当哨兵检测到
Master
宕机时,会通过投票机制自动将Slave
切换成Master
,然后再通过发布订阅模式通知其它的从服务器,修改配置文件,让它们切换主机。
多哨兵模式
单个哨兵进程对Redis
服务器进行监控时可能会出现一些问题(比如说哨兵挂掉),为此我们可以使用多个哨兵进行监控。各个哨兵之间还会进行监控,这样就形成了多哨兵模式。由于一个哨兵就需要一个进程,哨兵集群至少要三个哨兵才能保证健壮性,因此要配置多哨兵,起步就是6个进程。
多哨兵模式中,如果主机宕机了会怎么样?
假设主服务器宕机,哨兵1先检测到这个结果,但是系统并不会马上进行failover
(故障转移)过程,因为仅仅是哨兵1主观认为主服务器不可用,这个现象成为主观下线。当后面的哨兵也检测到主服务器连接不上了,并且数量达到一定值时(3个哨兵中两个哨兵检测主机不能使用了,那么就认为这个主机挂掉了),那么哨兵之间就会对从机中进行一次选举主机的投票,投票的结果由其中任意一个哨兵(随机)发起,然后进行failover(故障转移)操作,选举成功后就将该从机切换成主机,之后就会通过发布订阅模式(所有的服务都被哨兵监控着),让各个哨兵把自己监控的从服务器实现切换主机,这个过程成为客观下线。
测试(单哨兵模式)
目前Redis伪集群中设置的是一主二从
1、配置哨兵模式sentinel.conf
(最基本配置)
sentinel monitor 被监控的名称 主机地址 端口 1
sentinel monitor myredis 127.0.0.1 6379 1
这里的 ’1‘ 代表的是如果有1个sentinel
(哨兵)判断某个master
(主机)宕机,那么该主机宕机下线(也就是至少多少个sentinel
同意,master
才下线)
2、开启哨兵
./redis-sentinel /kconfig/sentinel.conf
5368:X 20 Jan 2021 20:48:18.240 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
5368:X 20 Jan 2021 20:48:18.240 # Redis version=6.0.9, bits=64, commit=00000000, modified=0, pid=5368, just started
5368:X 20 Jan 2021 20:48:18.240 # Configuration loaded
_._
_.-``__ ''-._
_.-`` `. `_. ''-._ Redis 6.0.9 (00000000/0) 64 bit
.-`` .-```. ```\/ _.,_ ''-._
( ' , .-` | `, ) Running in sentinel mode
|`-._`-...-` __...-.``-._|'` _.-'| Port: 26379
| `-._ `._ / _.-' | PID: 5368
`-._ `-._ `-./ _.-' _.-'
|`-._`-._ `-.__.-' _.-'_.-'|
| `-._`-._ _.-'_.-' | http://redis.io
`-._ `-._`-.__.-'_.-' _.-'
|`-._`-._ `-.__.-' _.-'_.-'|
| `-._`-._ _.-'_.-' |
`-._ `-._`-.__.-'_.-' _.-'
`-._ `-.__.-' _.-'
`-._ _.-'
`-.__.-'
5368:X 20 Jan 2021 20:48:18.241 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
5368:X 20 Jan 2021 20:48:18.247 # Sentinel ID is f9bce173dd83362821eb2739edc6ea2167f85edd
5368:X 20 Jan 2021 20:48:18.247 # +monitor master myredis 127.0.0.1 6379 quorum 1
5368:X 20 Jan 2021 20:48:18.248 * +slave slave 127.0.0.1:6380 127.0.0.1 6380 @ myredis 127.0.0.1 6379
3、当主机宕机了,哨兵做出什么动作
这个分配有三个端口,6379(主)、6380(从)、6381(从)
此时6379
主机shutdown手动宕机
6381
被哨兵选举(通过算法策略)为master
127.0.0.1:6381> info replication
# Replication
role:master
connected_slaves:1
slave0:ip=127.0.0.1,port=6380,state=online,offset=6230,lag=0
master_replid:99ac637afc72fb3e748e844e0b4a9553cce745c2
master_replid2:5f25a8d52692fcda674137883c0f5912e847645c
master_repl_offset:6230
second_repl_offset:3922
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:6230
4、如果此时宕机的机器重新连接回来,那么他只能归并到当前的master
当作从机(大人,时代变了!)
+convert-to-slave slave 127.0.0.1:6379 127.0.0.1 6379 @ myredis 127.0.0.1 6381
哨兵模式的优缺点
优点
- 哨兵集群,基于主从复制模式,所有的主从配置的优点,它都有。
- 主从可以切换,故障可以转移,系统的可用性就会更好。
- 哨兵模式就是主从模式的升级版,从收到到自动,更加健壮。
缺点
- Redis不好在线扩容,集群容量一旦达到上限,在线扩容就会十分麻烦。
- 实现哨兵模式的配置比较麻烦,并且其中有很多选项
哨兵模式配置文件中的全部配置
# Example sentinel.conf
# 哨兵sentinel实例运行的端口 默认是26379,如果有哨兵集群,我们还需要配置每个哨兵端口
port 26379
#哨兵sentinel的工作目录
dir /tmp
#哨兵 sentine1 监控的redis主节点的 ip port
# master-name ,可以自己命名的主节点名字 只能由字母A-Z、数字0-9、这三个字符" . - _ "组成。
# quorum配置多少个sentine1哨兵统- -认为master主节点失联那么这时客观上认为主节点失联了
# sentine1 monitor <master-name> <ip> <redis-port> <quorum>
sentinel monitor mymaster 127.0.0.1 6379 2
#当在Redis实例中开启了requirepass foobared 授权密码这样所有连接kedis实例的客户端都要提供密码
#设置哨兵sentinel连接主从的密码注意必须为主从设置- - 样的验证密码
# sentine1 auth-pass <master-name> <password>
sentine1 auth-pass mymaster MySUPER--secret-0123passwOrd
#指定多少毫秒之后主节点没有应答哨兵sentine1 此时哨兵主观上认为主节点下线默认30秒
# sentinel down-after-mi 11i seconds <master-name> <mi 11iseconds>
sentine1 down-after-mi 11iseconds mymaster 30000
#这个配置项指定了在发生failover主备切换时最多可以有多少个slave同时对新的master进行同步,这个数字越小,完成fai lover所需的时间就越长,但是如果这个数字越大,就意味着越多的slave因为replication而 不可用。可以通过将这个值设为1来保证每次只有一个slave处于不能处理命令请求的状态。
# sentine1 paralle1-syncs <master-name> <numslaves>
sentine1 paralle1-syncs mymaster 1
#故障转移的超时时间failover-timeout 可以用在以下这些方面:
#1.同一个sentine1对同一 个master两次fai lover之间的间隔时间。
#2.当一个slave从一 个错误的master那里同步数据开始计算时间。直到s1ave被纠正为向正确的master那里同步数据时。
#3.当想要取消一个正在进行的failover所需要的时间。
#4.当进行failover时,配置所有s1aves指向新的master所需的最大时间。不过,即使过了这个超时,slaves 依然会被正确配置为指向master,但是就不按parallel-syncs所配置的规则来了
#默认三分钟
# sentine1 failover-timeout <master-name> <milliseconds>
sentine1 fai lover-ti meout mymaster 180000
# SCRIPTS EXECUTION
#配置当某一事件发生时所需要执行的脚本,可以通过脚本来通知管理员,例如当系统运行不正常时发邮件通知相关人员。
#对于脚本的运行结果有以下规则:
#若脚本执行后返回1,那么该脚本稍后将会被再次执行,重复次数目前默认为10
#若脚本执行后返回2,或者比2更高的一个返回值,脚本将不会重复执行。
#如果脚本在执行过程中由于收到系统中断信号被终止了,则同返回值为1时的行为相同。
#一个脚本的最大执行时间为60s,如果超过这个时间,脚本将会被-一个SIGKILL信号终止,之后重新执行。
#通知型脚本:当sentine1有任何警告级别的事件发生时(比如说redis实例的主观失效和客观失效等等),将会去调用这个脚本,这时这个脚本应该通过邮件,SMS等 方式去通知系统管理员关于系统不正常运行的信息。调用该脚本时,将传给脚本两个参数,一 个是事件的类型,一个是事件的描述。如果sentine1. conf配置文件中配置了这个脚本路径,那么必须保证这个脚本存在于这个路径,并且是可执行的,否则sentine1无法正常启动成功。
#通知脚本
# she11编程
# sentine1 notification-script <master-name> <script-path>
sentine1 notificati on-script mymaster /var/redis/notify. sh
#客户端重新配置主节点参数脚本
#当一个master由于failover而发生改变时,这个脚本将会被调用,通知相关的客户端关于master地址已经发生改变的信息。
#以下参数将会在调用脚本时传给脚本:
# <master-name> <role> <state> <from-ip> <from-port> <to-ip> <to-port>
#目前<state>总是“failover",
# <role>是“Teader"或者"observer"中的-一个。
#参数from-ip, from-port, to-ip,to-port是用来和旧的master和新的master(即旧的s lave)通信的
#这个脚本应该是通用的,能被多次调用,不是针对性的。
# sentine1 client-reconfig-script <master-name> <script-path>
sentine1 client-reconfig-script mymaster /var/redis/reconfig.sh #一般都是由运维来配置!