1.简介
1.1 普通hash算法
普通hash算法是通过key将数据映射到具体节点上,如key%N,key为数据的hash值,N为节点数量,如果有机器加入或者退出集群,则key映射失效了,导致数据丢失。
1.2 一致性hash算法
相比普通hash算法,一致性hash就可以解决这种问题。一致性hash是分布式系统常用的一种算法,常用于负载均衡。
2.原理分析
2.1 环形Hash空间
一致性hash算法,将value映射为一个32的key(常用MD5函数),即key分配到一个0~2^32次方的空间里。我们可以想象这些数字头尾相连,形成一个闭合的环形。如下图:
2.2 将数据映射到环形空间上
现在我们假设有4个对象,object1,object2,object3,object4,我们按照一致性Hash算法,将它们的key分散到环形空间上。
Hash(Object1) = key1
Hash(Object2) = key2
Hash(Object3) = key3
Hash(Object4) = key4
如下图
2.2 将机器映射到环形空间上
在采用一致性哈希算法的分布式集群中将新的机器加入,其原理是通过使用与对象存储一样的Hash算法将机器也映射到环中(一般情况下对机器的hash计算是采用机器的IP或者机器唯一的别名作为输入值),然后以顺时针的方向计算,将所有对象存储到离自己最近的机器中。
假设现在有node1,node2,node3三台机器,通过Hash算法得到对应的key值,映射到环中,其示意图如下:
Hash(node1) = key1
Hash(node2) = key2
Hash(node3) = key3
如下图