Redis集群搭建
简介
Redis 集群是一个提供在多个Redis节点间共享数据的程序集。
Redis 集群通过分区来提供一定程度的高可用性,在实际环境中,当某个节点宕机或者不可达的情况下能够继续提供服务; Redis 集群的优势:
1、自动分割数据到不同的节点上。
2、在整个集群的部分节点宕机或者不可达的情况下能够继续处理命令对外提供服务。
集群的数据分片
Redis 集群没有使用一致性hash, 而是引入了 哈希槽的概念。
Redis 集群有16384个哈希槽,每个key通过CRC16算法校验后对16384取模来决定放置在哪个槽。公式为 CRC16(Key) % 16384 , 集群的每个节点负责一部分hash槽,举个例子,比如当前集群有3个节点,那么:
- 节点 A 包含 0 到 5500号哈希槽;
- 节点 B 包含5501 到 11000 号哈希槽;
- 节点 C 包含11001 到 16384号哈希槽;
这种结构很容易添加或者删除节点. 比如如果我想新添加个节点D, 我需要从节点 A, B, C中得部分槽到D上. 如果我想移除节点A,需要将A中的槽移到B和C节点上,然后将没有任何槽的A节点从集群中移除即可。 由于从一个节点将哈希槽移动到另一个节点并不会停止服务,所以无论添加删除或者改变某个节点的哈希槽的数量都不会造成集群不可用的状态。 redis集群的架构是这样的:
细节描述:
(1) 所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽。
(2) 节点的fail是通过集群中超过半数的节点检测失效时才生效。
(3) 客户端与redis节点直连,不需要中间proxy层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。
(4) redis-cluster把所有的物理节点映射到[0-16383]slot上,cluster 负责维护node-->slot-->value
Redis 集群的主从复制模型
为了使在部分节点失败或者大部分节点无法通信的情况下集群仍然可用,所以集群使用了主从复制模型,每个节点都会有N-1个复制品.
在我们例子中具有A,B,C三个节点的集群,在没有复制模型的情况下,如果节点B失败了,那么整个集群就会以为缺少5501-11000这个范围的槽而不可用.
然而如果在集群创建的时候(或者过一段时间)我们为每个节点添加一个从节点A1,B1,C1,那么整个集群便有三个master节点和三个slave节点组成,这样在节点B失败后,集群便会选举B1为新的主节点继续服务,整个集群便不会因为槽找不到而不可用了。
不过当B和B1 都失败后,集群是不可用的。
集群投票:容错
(1)、集群中所有master参与投票,如果半数以上master节点与其中一个master节点通信超过(cluster-node-timeout),认为该master节点挂掉。
(2)、什么时候整个集群不可用(cluster_state:fail)
如果集群任意master挂掉,且当前master没有slave,则集群进入fail状态。也可以理解成集群的[0-16383]slot映射不完全时进入fail状态。 如果集群超过半数以上master挂掉,无论是否有slave,集群进入fail状态。
Redis 一致性保证
Redis 并不能保证数据的强一致性。 这意味这在实际中集群在特定的条件下可能会丢失写操作。
第一个原因是因为集群是采用了异步复制。 写操作过程:
- 客户端向主节点B写入一条命令;
- 主节点B向客户端回复命令状态;
- 主节点将写操作复制给他得从节点 B1, B2 和 B3;
主节点对命令的复制工作发生在返回命令回复之后, 因为如果每次处理命令请求都需要等待复制操作完成的话, 那么主节点处理命令请求的速度将极大地降低 —— 我们必须在性能和一致性之间做出权衡。 注意:Redis 集群可能会在将来提供同步写的方法。 Redis 集群另外一种可能会丢失命令的情况是集群出现了网络分区, 并且一个客户端与至少包括一个主节点在内的少数实例被孤立。
举个例子 假设集群包含 A 、 B 、 C 、 A1 、 B1 、 C1 六个节点, 其中 A 、B 、C 为主节点, A1 、B1 、C1 为A,B,C的从节点, 还有一个客户端 Z1 假设集群中发生网络分区,那么集群可能会分为两方,大部分的一方包含节点 A 、C 、A1 、B1 和 C1 ,小部分的一方则包含节点 B 和客户端 Z1 .
Z1仍然能够向主节点B中写入, 如果网络分区发生时间较短,那么集群将会继续正常运作,如果分区的时间足够让大部分的一方将B1选举为新的master,那么Z1写入B中得数据便丢失了。
注意, 在网络分裂出现期间, 客户端 Z1 可以向主节点 B 发送写命令的最大时间是有限制的, 这一时间限制称为节点超时时间(node timeout), 是 Redis 集群的一个重要的配置选项。
搭建Redis集群
说明
根据官网,搭建Redis集群需要三个主节点和三个从节点,即至少6个Redis节点。因为本人并没有那么多的机器,所以只能通过设置不同的端口号启动6个Redis节点来模拟Redis集群搭建。不过和生产上其实没有分别。
下载安装Redis
wget http://download.redis.io/releases/redis-4.0.14.tar.gz
复制代码
下载完成后进行解压安装:
tar -zxvf redis-4.0.14.tar.gz
cd redis-4.0.14
make install PREFIX=/usr/local/redis #指定安装路径
复制代码
为了方便管理,我们创建一个集群目录,进入到redis目录
cd /usr/local/redis
mkdir cluster
cd cluster
# 官网端口从7000~7005
mkdir 7000 7001 7002 7003 7004 7005
复制代码
拷贝并修改配置文件
将redis目录下的redix.conf文件拷贝到7000~7005目录中并修改配置文件中的如下内容
# 端口 92行
port 7000
# 后台启动 136行
daemonize yes
#pid 文件路径 158行
pidfile /var/run/redis_7004.pid
# 日志文件 171行
logfile "7000.log"
# rdb文件 253行
dbfilename dump7000.rdb
# 开启aof 672行
appendonly yes
# append only file 文件 676行
appendfilename "appendonly7000.aof"
# 开启集群 814行
cluster-enabled yes
#集群节点配置文件 822行
cluster-config-file nodes-7000.conf
# 开启集群节点超时时间 828行
cluster-node-timeout 15000
复制代码
每个端口的配置文件都需要修改以上10项(改的我都快吐了) 如果再一个一个的启动,那就累死了,所以编写启动脚本 redis-start.sh:
#!/bin/bash
bin/redis-server cluster/7000/redis.conf
bin/redis-server cluster/7001/redis.conf
bin/redis-server cluster/7002/redis.conf
bin/redis-server cluster/7003/redis.conf
bin/redis-server cluster/7004/redis.conf
bin/redis-server cluster/7005/redis.conf
复制代码
既然启动脚本都已经写了,那再写一个关闭脚本redis-stop.sh也不算过分吧:
#!/bin/bash
bin/redis-cli -p 7000 shutdown
bin/redis-cli -p 7001 shutdown
bin/redis-cli -p 7002 shutdown
bin/redis-cli -p 7003 shutdown
bin/redis-cli -p 7004 shutdown
bin/redis-cli -p 7005 shutdown
复制代码
赋予脚本可执行的能力
#启动脚本
chmod 544 redis-start.sh
#关闭脚本
chmod 544 redis-stop.sh
# 运行启动脚本
sh redis-start.sh
# 查看redis进程
ps -ef | grep redis |grep -v grep
复制代码
说明redis进程已经启动。
开启集群
Redis官网建议我们是用 Redis 集群命令行工具 redis-trib来搭建集群,它是一个 Ruby 程序,因此我们要先安装ruby的环境。
yum install ruby rubygems -y
复制代码
将redis src目录下的redis-trib.lb 文件拷贝到/usr/local/redis/bin 目录下
cp src/redis-trib.rb /usr/local/redis/bin/
复制代码
执行如下命令:
./redis-trib.rb create --replicas 1 127.0.0.1:7000 127.0.0.1:7001 127.0.0.1:7002 127.0.0.1:7003 127.0.0.1:7004 127.0.0.1:7005
复制代码
报错如下:
/usr/share/rubygems/rubygems/core_ext/kernel_require.rb:55:in `require': cannot load such file -- redis (LoadError)
from /usr/share/rubygems/rubygems/core_ext/kernel_require.rb:55:in `require'
from ./redis-trib.rb:25:in `<main>'
复制代码
从错误来看是少了redis的组件,安装gem-redis
gem install redis
复制代码
还是报错
ERROR: Could not find a valid gem 'redis' (>= 0), here is why:
Unable to download data from https://rubygems.org/ - no such name (https://rubygems.org/latest_specs.4.8.gz)
复制代码
百度查了一下,使用 gems.ruby-china.com/ 该镜像
#先删除原有的镜像
gem sources--remove https://rubygems.org/
gem sources -a https://gems.ruby-china.com/
复制代码
或者使用aliyun镜像
gem sources -a http://mirrors.aliyun.com/rubygems/
复制代码
最终成功了,执行如下命令:
注意:如果执行gem install redis 失败的话,先看下自己的redis版本号是多少,本人的是4.0.14, 4.0以上的版本ruby至少要使用2.3.0以上版本,yum 默认安装的是2.0.0版本,我们需要对其进行升级,具体操作可以参考这边博文ruby升级,但是使用rvm install 2.5 下载速度又太慢,可能是我网络问题。因此我是直接在ruby官网上下载好jar包后直接上传到服务器进行安装,Ruby官网,安装步骤请参考这篇文章Ruby安装。
经过一番坎坷, gem install redis 最终执行成功。
使用redis-trib.lb命令创建集群:
./redis-trib.rb create --replicas 1 127.0.0.1:7000 127.0.0.1:7001 127.0.0.1:7002 127.0.0.1:7003 127.0.0.1:7004 127.0.0.1:7005
复制代码
这里我们有必要说一下redis-trib.lb命令;
这个命令在这里用于创建一个新的集群,
- 选项–replicas 1 表示我们希望为集群中的每个主节点创建一个从节点。
- 之后跟着的其他参数则是这个集群实例的地址列表,3个master3个slave。
redis-trib 会打印出一份预想中的配置给你看, 如果你觉得没问题的话, 就可以输入 yes , redis-trib 就会将这份配置应用到集群当中,让各个节点开始互相通讯,最后可以得到如下信息
[root@iZ2zej6c7vo33hviudgp2rZ bin]# ./redis-trib.rb create --replicas 1 127.0.0.1:7000 127.0.0.1:7001 127.0.0.1:7002 127.0.0.1:7003 127.0.0.1:7004 127.0.0.1:7005
>>> Creating cluster
>>> Performing hash slots allocation on 6 nodes...
Using 3 masters:
127.0.0.1:7000
127.0.0.1:7001
127.0.0.1:7002
Adding replica 127.0.0.1:7004 to 127.0.0.1:7000
Adding replica 127.0.0.1:7005 to 127.0.0.1:7001
Adding replica 127.0.0.1:7003 to 127.0.0.1:7002
>>> Trying to optimize slaves allocation for anti-affinity
[WARNING] Some slaves are in the same host as their master
M: 3006263a08e963391066c0e4c65c3d15bf0b96bd 127.0.0.1:7000
slots:0-5460 (5461 slots) master
M: 5d8b6aea59b79cbb74a1f3b38eadfdc737fef6a6 127.0.0.1:7001
slots:5461-10922 (5462 slots) master
M: 36dd9a8fc34971e5ed21cd0152aa0b7f32a9b8d6 127.0.0.1:7002
slots:10923-16383 (5461 slots) master
S: 3bc971283c54506fa6ea0a9502d9db31e41a50f2 127.0.0.1:7003
replicates 36dd9a8fc34971e5ed21cd0152aa0b7f32a9b8d6
S: f6666641a44191ce9eb96d4e7285497e4d836c3e 127.0.0.1:7004
replicates 3006263a08e963391066c0e4c65c3d15bf0b96bd
S: f62fd8a1e98404edc950b2a31c1778393292bbcd 127.0.0.1:7005
replicates 5d8b6aea59b79cbb74a1f3b38eadfdc737fef6a6
Can I set the above configuration? (type 'yes' to accept):
复制代码
输入yes,redis-trib 就会将这份配置应用到集群当中,让各个节点开始互相通讯;
>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join.....
>>> Performing Cluster Check (using node 127.0.0.1:7000)
M: 3006263a08e963391066c0e4c65c3d15bf0b96bd 127.0.0.1:7000
slots:0-5460 (5461 slots) master
1 additional replica(s)
S: 3bc971283c54506fa6ea0a9502d9db31e41a50f2 127.0.0.1:7003
slots: (0 slots) slave
replicates 36dd9a8fc34971e5ed21cd0152aa0b7f32a9b8d6
M: 5d8b6aea59b79cbb74a1f3b38eadfdc737fef6a6 127.0.0.1:7001
slots:5461-10922 (5462 slots) master
1 additional replica(s)
S: f62fd8a1e98404edc950b2a31c1778393292bbcd 127.0.0.1:7005
slots: (0 slots) slave
replicates 5d8b6aea59b79cbb74a1f3b38eadfdc737fef6a6
M: 36dd9a8fc34971e5ed21cd0152aa0b7f32a9b8d6 127.0.0.1:7002
slots:10923-16383 (5461 slots) master
1 additional replica(s)
S: f6666641a44191ce9eb96d4e7285497e4d836c3e 127.0.0.1:7004
slots: (0 slots) slave
replicates 3006263a08e963391066c0e4c65c3d15bf0b96bd
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered. ### 说明16384个哈希槽 都已经被覆盖
[root@iZ2zej6c7vo33hviudgp2rZ bin]#
复制代码
到此为止,我们的Redis三主三从的集群就算搭建完成了。