Hash一致性算法（分片机制）

最新推荐文章于 2023-12-19 15:07:09 发布

光影和弦一抹春色

最新推荐文章于 2023-12-19 15:07:09 发布

阅读量1.3k

点赞数 1

分类专栏：算法分布式

本文链接：https://blog.csdn.net/qq_43614498/article/details/105284926

版权

本文介绍了哈希一致性算法，用于解决分布式系统中数据分片的问题。文章详细阐述了哈希环、节点和对象映射、节点增删对数据映射的影响，以及通过虚拟节点实现数据均衡分布。通过实例展示了不同复制倍数下节点负荷的均衡性，指出一致性哈希在解决扩容和缩容时的数据迁移问题上的优势。

摘要由CSDN通过智能技术生成

一哈希简介
1.1 简介
我们首先来简单介绍一下什么是哈希（以下简称hash），hash本质来说就是映射，或者说是键值对key-value，不同的hash之间不过就是实现key-value映射的算法不同，例如java中计算对象的hashcode值会有不同的算法，常用于各种分布式存储分片的id取模算法等，都属于hash算法。
分布式系统中，假设有 n 个节点，传统方案使用 mod(key, n) 映射数据和节点。
当扩容或缩容时(哪怕只是增减1个节点)，映射关系变为 mod(key, n+1) / mod(key, n-1)，绝大多数数据的映射关系都会失效。
1.2算法原理：
映射方案
在这里插入图片描述
1.2.1公用哈希函数和哈希环
设计哈希函数 Hash(key)，要求取值范围为 [0, 2^32)
各哈希值在上图 Hash 环上的分布：时钟12点位置为0，按顺时针方向递增，临近12点的左侧位置为2^32-1。

1.2.2 节点(Node)映射至哈希环
如图哈希环上的绿球所示，四个节点 Node A/B/C/D，
其 IP 地址或机器名，经过同一个 Hash() 计算的结果，映射到哈希环上。

1.2.3 对象(Object)映射于哈希环
如图哈希环上的黄球所示，四个对象 Object A/B/C/D，
其键值，经过同一个 Hash() 计算的结果，映射到哈希环上。

1.2.4 对象(Object)映射至节点(Node)
在对象和节点都映射至同一个哈希环之后，要确定某个对象映射至哪个节点，
只需从该对象开始，沿着哈希环顺时针方向查找，找到的第一个节点，即是。
可见，Object A/B/C/D 分别映射至 Node A/B/C/D。
删除节点
现实场景：服务器缩容时删除节点，或者有节点宕机。如下图，要删除节点 Node C：
只会影响欲删除节点(Node C)与上一个(顺时针为前进方向)节点(Node B)与之间的对象，也就是 Object C，
这些对象的映射关系，按照 2.1.4 的规则，调整映射至欲删除节点的下一个节点 Node D。
其他对象的映射关系，都无需调整。

在这里插入图片描述
增加节点
现实场景：服务器扩容时增加节点。比如要在 Node B/C 之间增加节点 Node X：
只会影响欲新增节点(Node X)与上一个(顺时针为前进方向)节点(Node B)与之间的对象，也就是 Object C，
这些对象的映射关系，按照 2.1.4 的规则，调整映射至新增的节点 Node X。
其他对象的映射关系，都无需调整。
在这里插入图片描述
虚拟节点
对于前面的方案，节点数越少，越容易出现节点在哈希环上的分布不均匀，导致各节点映射的对象数量严重不均衡(数据倾斜)；相反，节点数越多越密集，数据在哈希环上的分布就越均匀。
但实际部署的物理节点有限，我们可以用有限的物理节点，虚拟出足够多的虚拟节点(Virtual Node)，最终达到数据在哈希环上均匀分布的效果：
如下图，实际只部署了2个节点 Node A/B，
每个节点都复制成3倍，结果看上去是部署了6个节点。
可以想象，当复制倍数为 2^32 时，就达到绝对的均匀，通常可取复制倍数为32或更高。
虚拟节点哈希值的计算方法调整为：对“节点的IP(或机器名)+虚拟节点的序号(1~N)”作哈希。