【Redis】Redis 集群搭建与管理: 原理、实现与操作

Hsu琛君珩

于 2024-09-07 17:44:37 发布

阅读量1.6k

点赞数 8

分类专栏： Redis 文章标签： redis bootstrap 数据库

本文链接：https://blog.csdn.net/Hsusan/article/details/141999546

版权

集群 (Cluster)

本章节相关操作不需要记忆!!! 后续⼯作中如果⽤到了能查到即可.

重点理解流程和原理.

广义的集群：只要是多个机器，构成了分布式系统，都是一个集群

狭义的集群：redis 提供的集群模式。这个集群模式主要是解决存储空间不足的问题（拓展存储空间）

基本概念

上述的哨兵模式，提⾼了系统的可⽤性。但是真正⽤来存储数据的还是 master 和 slave 节点。所有的数据都需要存储在单个 master 和 slave 节点中。

如果数据量很⼤，接近超出了 master / slave 所在机器的物理内存，就可能出现严重问题了。

虽然硬件价格在不断降低，⼀些中⼤⼚的服务器内存已经可以达到 TB 级别了，但是 1TB 在当前这个 “⼤数据” 时代，俨然不算什么，有的时候我们确实需要更⼤的内存空间来保存更多的数据。

如何获取更⼤的空间? 加机器即可! 所谓 “大数据” 的核⼼，其实就是⼀台机器搞不定了，⽤多台机器来搞.

Redis 的集群就是在上述的思路之下，引⼊多组 Master / Slave ，每⼀组 Master / Slave 存储数据全集的⼀部分，从⽽构成⼀个更⼤的整体，称为 Redis 集群 (Cluster)。

假定整个数据全集是 1 TB，引⼊三组 Master / Slave 来存储。那么每⼀组机器只需要存储整个数据全集的 1/3 即可。

在上述图中，

Master1 和 Slave11 和 Slave12 保存的是同样的数据。占总数据的 1/3
Master2 和 Slave21 和 Slave22 保存的是同样的数据。占总数据的 1/3
Master3 和 Slave31 和 Slave32 保存的是同样的数据。占总数据的 1/3

这三组机器存储的数据都是不同的

每个 Slave 都是对应 Master 的备份(当 Master 挂了，对应的 Slave 会补位成 Master)。

每个红框部分都可以称为是⼀个 分片 (Sharding)

如果全量数据进⼀步增加，只要再增加更多的分⽚，即可解决。

可能有的同学认为，数据量多了，使⽤硬盘来保存不就⾏了？不要忘了硬盘只是存储多了，但是访问速度是⽐内存慢很多的。但是事实上，还是存在很多的应⽤场景，既希望存储较多的数据，⼜希望有⾮常⾼的读写速度。

⽐如搜索引擎

数据分片算法

Redis cluster 的核⼼思路是⽤多组机器来存数据的每个部分。那么接下来的核⼼问题就是，给定⼀个数据 (⼀个具体的 key)，那么这个数据应该存储在哪个分⽚上？读取的时候⼜应该去哪个分⽚读取？围绕这个问题，业界有三种⽐较主流的实现⽅式。

哈希求余

借鉴了哈希表的基本思想：借助 hash 函数，把一个 key 映射到整数，再针对数组的长度求余，就可以得到一个数组下标

设有 N 个分⽚，使⽤ [0，N-1] 这样序号进⾏编号。

针对某个给定的 key，先计算 hash 值，再把得到的结果 % N，得到的结果即为分⽚编号。

例如， N 为 3。给定 key 为 hello，对 hello 计算 hash 值(⽐如使⽤ md5 算法，这本质是一个计算 hash 值的算法)，得到的结果为 bc4b2a76b9719d91，再把这个结果 % 3，结果为 0，那么就把 hello 这个 key 放到 0 号分⽚上。当然，实际⼯作中涉及到的系统，计算 hash 的⽅式不⼀定是 md5，但是思想是⼀致的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

后续如果要取某个 key 的记录，也是针对 key 计算 hash，再对 N 求余，就可以找到对应的分⽚编号了。

优点：简单⾼效，数据分配均匀。

缺点：⼀旦需要进⾏扩容，N 改变了，原有的映射规则被破坏，就需要让节点之间的数据相互传输，重新排列，以满⾜新的映射规则。此时需要搬运的数据量是⽐较多的，开销较⼤

N 为 3 的时候，[100，120] 这 21 个 hash 值的分布 (此处假定计算出的 hash 值是⼀个简单的整数，⽅便⾁眼观察)

当引⼊⼀个新的分⽚，N 从 3 => 4 时，⼤量的 key 都需要重新映射。(某个key % 3 和 % 4 的结果不⼀样，就映射到不同机器上了)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上图可以看到，整个扩容⼀共 21 个 key，只有 3 个 key 没有经过搬运，其他的 key 都是搬运过的.

⼀致性哈希算法

为了降低上述的搬运开销，能够更⾼效扩容，业界提出了 “⼀致性哈希算法”

key 映射到分⽚序号的过程不再是简单求余了，⽽是改成以下过程：

第⼀步，把 0 -> 2^32-1 这个数据空间，映射到⼀个圆环上。数据按照顺时针⽅向增⻓。

第⼆步，假设当前存在三个分⽚，就把分⽚放到圆环的某个位置上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第三步，假定有⼀个 key，计算得到 hash 值 H，那么这个 key 映射到哪个分⽚呢？规则很简单，就是从 H 所在位置，顺时针往下找，找到的第⼀个分⽚，即为该 key 所从属的分⽚。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就相当于，N 个分⽚的位置，把整个圆环分成了 N 个管辖区间。Key 的 hash 值落在某个区间内，就归对应区间管理。

上述⼀致性哈希算法的过程，类似于去⾼铁站取票。

现在的⾼铁站都可以直接刷⾝份证了。但是以前的时候需要⽹上先购票，然后再去⾼铁站的取票机上把票取出来。

想象下列场景：

假设，⼀个⼈每次来⾼铁站，都会停⻋在同⼀个位置。(不同的⼈停⻋位置不同)。

每个⼈下⻋之后，都往右⼿⽅向⾛，遇到第⼀个取票机就进⾏取票。

在这个情况下，如果扩容⼀个分⽚，如何处理呢?

原有分⽚在环上的位置不动，只要在环上新安排⼀个分⽚位置即可

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此时，只需要把 0 号分⽚上的部分数据，搬运给 3 号分⽚即可。1 号分⽚和 2 号分⽚管理的区间都是不变的。

优点：⼤大降低了扩容时数据搬运的规模，提⾼了扩容操作的效率。

缺点：数据分配不均匀 (有的多有的少，数据倾斜)。

哈希槽分区算法 (Redis 使⽤)

为了解决上述问题 (搬运成本⾼和数据分配不均匀)，Redis cluster 引⼊了哈希槽 (hash slots) 算法

这种算法本质上的把一致性哈希和哈希求余结合了一下

 hash_slot = crc16(key) % 16384

其中 crc16 也是⼀种 hash 算法

16384 其实是 16 * 1024，也就是 2^14

相当于是把整个哈希值，映射到 16384 个槽位上，也就是 [0，16383]

然后再把这些槽位⽐较均匀的分配给每个分⽚。每个分⽚的节点都需要记录⾃⼰持有哪些分⽚

假设当前有三个分⽚，⼀种可能的分配⽅式：

0 号分⽚: [0， 5461]，共 5462 个槽位
1 号分⽚: [5462， 10923]，共 5462 个槽位
2 号分⽚: [10924， 16383]，共 5460 个槽位

这⾥的分⽚规则是很灵活的。每个分⽚持有的槽位也不⼀定连续

每个分⽚的节点使⽤位图来表⽰⾃⼰持有哪些槽位。对于 16384 个槽位来说，需要 2048 个字节(2KB) ⼤⼩的内存空间表⽰

如果需要进⾏扩容，⽐如新增⼀个 3 号分⽚，就可以针对原有的槽位进⾏重新分配

⽐如可以把之前每个分⽚持有的槽位，各拿出⼀点，分给新分⽚

⼀种可能的分配⽅式：

0 号分⽚: [0，4095]，共 4096 个槽位
1 号分⽚: [5462，9557]，共 4096 个槽位
2 号分⽚: [10924，15019]，共 4096 个槽位
3 号分⽚: [4096，5461] + [9558，10923] + [15020，16383]，共 4096 个槽位

上述过程中，只有被移动的槽位，对应的数据才需要搬运

我们在实际使⽤ Redis 集群分⽚的时候，不需要⼿动指定哪些槽位分配给某个分⽚，只需要告诉某个分⽚应该持有多少个槽位即可， Redis 会⾃动完成后续的槽位分配，以及对应的 key 搬运的⼯作

此处还有两个问题：

问题⼀: Redis 集群是最多有 16384 个分⽚吗?

并⾮如此。如果⼀个分⽚只有⼀个槽位，这对于集群的数据均匀其实是难以保证的

实际上 Redis 的作者建议集群分⽚数不应该超过 1000

⽽且，16000 这么⼤规模的集群，本⾝的可⽤性也是⼀个⼤问题。⼀个系统越复杂，出现故障的概率是越⾼的

每个分片上只有一个槽位（此时很难保证数据在各个分片上的均衡性），key 是先映射到槽位，再映射到分片的。如果每个分片包含的槽位比较多，如果槽位个数相当，就可以认为是包含的 key 数量相当的。如果每个分配包含的槽位非常少，槽位个数不一定能直观的反应到 key 的数目。有的槽位可能是有多个 key，有的槽位可能是没有 key。

问题⼆: 为什么是 16384 个槽位?

Redis 作者的答案: https://github.com/antirez/redis/issues/2576

节点之间通过⼼跳包通信。⼼跳包中包含了该节点持有哪些 slots（槽位）。这个是使⽤位图这样的数据结构表⽰的。表⽰ 16384 (16k) 个 slots，需要的位图⼤⼩是 2KB。如果给定的 slots 数更多了，⽐如 65536个了，此时就需要消耗更多的空间， 8 KB 位图表⽰了。8 KB，对于内存来说不算什么，但是在频繁的⽹络⼼跳包中，还是⼀个不⼩的开销的（周期性很强，特别频繁，很吃网络带宽）。
另⼀⽅⾯， Redis 集群⼀般不建议超过 1000 个分⽚。所以 16k 对于最⼤ 1000 个分⽚来说是⾜够⽤的，同时也会使对应的槽位配置位图体积不⾄于很⼤