redis 哨兵实现高可用以及哨兵常见问题处理

主从搭建请参考

一主一从
192.168.67.100 #主
192.168.67.101 #从

  • sentinel.conf 配置修改
cd /usr/local/redis6/
vim sentinel.conf 

#绑定授权IP
bind 0.0.0.0 

 #sentinel 监听端口
port 26379

#开启后台运行
daemonize yes 

#日志等文件保存目录
dir "/tmp" 

#将运行日志保存在 /tmp 目录下
logfile 'sentinel.log' 

#配置监听的主服务器,这里sentinel monitor代表监控,mymaster代表服务器的名称(自定义),192.168.67.100 代表监控的master,6379 为port,2代表只有两个或两个以上的哨兵认为主服务器不可用的时候,才会进行failover(选举)操作。
sentinel monitor mymaster 192.168.67.100 6379 2

#定义服务的密码,mymaster是服务名称,123456是Redis服务器密码
#sentinel auth-pass <master-name> <password>
sentinel auth-pass mymaster 123456
  • 启动哨兵
redis-sentinel sentinel.conf

正常启动日志打印信息

70012:X 24 Apr 2021 05:00:10.249 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
70012:X 24 Apr 2021 05:00:10.249 # Redis version=6.0.6, bits=64, commit=00000000, modified=0, pid=70012, just started
70012:X 24 Apr 2021 05:00:10.249 # Configuration loaded
70013:X 24 Apr 2021 05:00:10.251 * Increased maximum number of open files to 10032 (it was originally set to 1024).
70013:X 24 Apr 2021 05:00:10.253 * Running mode=sentinel, port=26379.
70013:X 24 Apr 2021 05:00:10.254 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
70013:X 24 Apr 2021 05:00:10.261 # Sentinel ID is ac4896f197ae98b2a557771dda7b6e24f01cecbc
70013:X 24 Apr 2021 05:00:10.261 # +monitor master mymaster 192.168.67.100 6379 quorum 1
70013:X 24 Apr 2021 05:00:10.908 * +sentinel-address-switch master mymaster 192.168.67.100 6379 ip 192.168.67.100 port 26379 for 1ac8d7c442b6f6bbc03f33045def2fa17960423e
  • 停掉192.168.67.100 redis-server
#192.168.67.100 redis-server stop
[root@192 tmp]# service redisd stop
Stopping ...
Waiting for Redis to shutdown ...
Redis stopped
[root@192 tmp]# 
  • 查看节点(192.168.67.101 slave )信息
127.0.0.1:6379> info replication
#Replication
role:slave
master_host:192.168.67.100
master_port:6379
master_link_status:down #master 连接断开
master_last_io_seconds_ago:-1
master_sync_in_progress:0
slave_repl_offset:270000
master_link_down_since_seconds:21
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:11aadc2d0dbc86e746d1a0a0236cfe805bf5f9ce
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:270000
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:103598
repl_backlog_histlen:166403
127.0.0.1:6379> 
  • failover 开始选举
65100:X 24 Apr 2021 05:14:33.172 * +sentinel-address-switch master mymaster 192.168.67.100 6379 ip 192.168.67.136 port 26379 for ac4896f197ae98b2a557771dda7b6e24f01cecbc
65100:X 24 Apr 2021 05:14:33.829 # +sdown master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:33.829 # +odown master mymaster 192.168.67.100 6379 #quorum 1/1
65100:X 24 Apr 2021 05:14:33.829 # +new-epoch 12
65100:X 24 Apr 2021 05:14:33.829 # +try-failover master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:33.831 # +vote-for-leader 1ac8d7c442b6f6bbc03f33045def2fa17960423e 12
65100:X 24 Apr 2021 05:14:33.842 # ac4896f197ae98b2a557771dda7b6e24f01cecbc voted for 1ac8d7c442b6f6bbc03f33045def2fa17960423e 12
65100:X 24 Apr 2021 05:14:33.895 # +elected-leader master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:33.895 # +failover-state-select-slave master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:33.949 # +selected-slave slave 192.168.67.101:6379 192.168.67.101 6379 @ mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:33.949 * +failover-state-send-slaveof-noone slave 192.168.67.101:6379 192.168.67.101 6379 @ mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:34.006 * +failover-state-wait-promotion slave 192.168.67.101:6379 192.168.67.101 6379 @ mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:34.101 * +sentinel-address-switch master mymaster 192.168.67.100 6379 ip 192.168.67.101 port 26379 for ac4896f197ae98b2a557771dda7b6e24f01cecbc
65100:X 24 Apr 2021 05:14:34.743 # +promoted-slave slave 192.168.67.101:6379 192.168.67.101 6379 @ mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:34.743 # +failover-state-reconf-slaves master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:34.810 # +failover-end master mymaster 192.168.67.100 6379
65100:X 24 Apr 2021 05:14:34.810 # +switch-master mymaster 192.168.67.100 6379 192.168.67.101 6379 #选举成功
  • 再次查看 192.168.67.101 查看节点信息
    在这里插入图片描述

  • 启动192.168.67.100 redis-server

service redisd start

结果如下
在这里插入图片描述
在这里插入图片描述

判断是否宕机原理

sdown是主观宕机,就一个哨兵如果自己觉得master宕机了,那么就是主观宕机
odown是客观宕机,如果quorum数量的哨兵都觉得master宕机了,那么就是客观宕机

选举算法

  • 如果一个master被认为odown了,而且majority哨兵都允许了主备切换,那么某个哨兵就会执行主备切换操作,此时首先要从剩下的slave中选举一个新的master来

会考虑slave的一些信息
(1)跟master断开连接的时长
(2)slave优先级
(3)复制offset
(4)run id

其它相关配置详解

sentinel down-after-milliseconds master-name milliseconds
这个配置项指定了需要多少失效时间,一个master才会被这个sentinel主观地认为是不可用的。 单位是毫秒,默认为30秒

sentinel down-after-milliseconds mymaster 30000

sentinel parallel-syncs master-name numslaves
当 Sentinel 节点集合对主节点故障判定达成一致时, Sentinel 领导者节点会做故障转移操作,选出新的主节点,原来的从节点会向新的主节点发起复制操 作, parallel-syncs 就是用来限制在一次故障转移之后,每次向新的主节点发起复制操作的从节点个数,指出 Sentinel 属于并发还是串行。1代表每次只能 复制一个,可以减轻 Master 的压力;

sentinel parallel-syncs mymaster 1
  • Sentinel命令
  1. sentinel masters 显示被监控的所有master以及它们的状态.
127.0.0.1:26379> sentinel masters
1)  1) "name"
    2) "mymaster"
    3) "ip"
    4) "192.168.148.131"
    5) "port"
    6) "6379"
    7) "runid"
    8) "ae3c13ce22779eb97e81350a1606a8456338a330"
    9) "flags"
   10) "master"
..................
  1. sentinel master 显示指定master的信息和状态;
127.0.0.1:26379> sentinel master mymaster
 1) "name"
 2) "mymaster"
 3) "ip"
 4) "192.168.148.131"
 5) "port"
 6) "6379"
 7) "runid"
 8) "ae3c13ce22779eb97e81350a1606a8456338a330"
 9) "flags"
10) "master"
....................
  1. sentinel slaves 显示指定master的所有slave以及它们的状态;
127.0.0.1:26379> sentinel slaves mymaster
1)  1) "name"
    2) "192.168.148.133:6379"
    3) "ip"
    4) "192.168.148.133"
    5) "port"
    6) "6379"
    7) "runid"
    8) "32d652b47a94c49042d73d5e99516c6e1bc2d208"
    9) "flags"
   10) "slave"
.................
  1. sentinel get-master-addr-by-name 返回指定master的ip和端口, 如果正在进行failover或者failover已经完成,将会显示被提升 为master的slave的ip和端口。
127.0.0.1:26379> sentinel get-master-addr-by-name mymaster
1) "192.168.148.131"
2) "6379"
  1. sentinel failover 强制sentinel执行failover,并且不需要得到其他sentinel的同意。 但是failover后会将最新的配置发送给其他 sentinel。
127.0.0.1:26379> sentinel failover mymaster
OK
127.0.0.1:26379> info sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=192.168.148.133:6379,slaves=2,sentinels=3

哨兵常见问题

  • 哨兵集群在发现 master node 挂掉后会进行故障转移,也就是启动其中一个 slave node 为 master node 。在这过程中,可能会导致数据丢失的情况。

1、异步复制导致数据丢失 因为master->slave的复制是异步,所以可能有部分还没来得及复制到slave就宕机了,此时这些部分数据就丢失了。
2、集群脑裂导致数据丢失 脑裂,也就是说,某个master所在机器突然脱离了正常的网络,跟其它slave机器不能连接,但是实际上master还运行着。

  • 造成的问题
    此时哨兵可能就会认为master宕机了,然后开始选举,将其它 slave 切换成 master 。这时候集群里就会有2个 master ,也就是所谓的脑裂。 此时虽然某个 slave 被切换成了 master ,但是可能client还没来得及切换成新的 master ,还继续写向旧的 master 的数据可能就丢失了。 因此旧master再次恢复的时候,会被作为一个 slave 挂到新的 master 上去,自己的数据会被清空,重新从新的 master 复制数据。
  • 解决方案
    在这里插入图片描述
    如上图:在一般情况下,lag的值应该在0秒或者1秒之间跳动,如果超过1秒的话,那么说明主从服务器之间的连接出现了故障。

redis.conf 加入以下配置

要求至少有1个slave,数据复制和同步的延迟不能超过10秒 如果说一旦所有的slave,数据复制和同步的延迟都超过了10秒钟,那么这个时候,master就不会再接收任何请求了

# 辅助实现min-slaves配置选项
min-slaves-to-write 1
min-slaves-max-lag 10
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用\[1\]中提到,哨兵模式是为了实现Redis高可用性。当一个master节点宕机时,需要大部分的哨兵节点都同意才能进行故障转移,确保系统的正常工作。即使部分哨兵节点挂掉了,哨兵集群仍然能够正常工作,因为哨兵选举流程是分布式的。\[1\] 引用\[2\]中提到,哨兵的功能包括集群监控、消息通知、故障转移和配置中心。它负责监控Redis的主节点和从节点是否正常工作,并在主节点宕机时自动将其转移到从节点上。同时,哨兵还负责通知客户端新的主节点地址,确保客户端能够正确连接到Redis集群。\[2\] 引用\[3\]中提到,Redis集群模式使用了hash slot来实现节点的增加和移除,这使得增加和移除节点的成本非常低。当增加一个主节点时,只需要将其他主节点的hash slot移动部分过去;当减少一个主节点时,只需要将其hash slot移动到其他主节点上。这种机制使得Redis集群模式具有高可用性。\[3\] 综上所述,Redis哨兵模式和集群模式都是为了实现高可用性。哨兵模式通过故障转移来保证系统的正常工作,而集群模式通过使用hash slot来实现节点的增加和移除,从而实现高可用性。 #### 引用[.reference_title] - *1* *2* *3* [Redis 哨兵模式、集群模式](https://blog.csdn.net/weixin_43889841/article/details/117483197)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值