Hash一致性算法理解

最新推荐文章于 2024-07-21 22:35:48 发布

Cbird-coder

最新推荐文章于 2024-07-21 22:35:48 发布

阅读量1.7k

点赞数

分类专栏：虚拟化与云计算

本文链接：https://blog.csdn.net/xygl2009/article/details/48239651

版权

虚拟化与云计算专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在分布式地环境中，集群中大量机器的重启，添加新机器，删除旧的机器是经常发生的事情。如果采用传统的哈希算法将缓存映射到机器，即就是采用如下的方法;

hash(object)%N

上面公式中的object为结果，N为当前集群中机器节点的数目。

采用这种方式有什么缺陷呢？

还是打个比方吧，比如QQ的集群，原来聊天服务在node1机器上，视频聊天在node2机器上，阅读服务在node3机器上，假设现在业务的需要需要添加一台图片存储节点node4。原来聊天时的object都是映射到node1，现在添加一个node4，N发生变化，同样的object可能映射不到node1上，这样就会引起错误，导致业务无法进行。

怎么解决这个问题呢？

这就需要hash一致性算法来解决。

hash一致性算法主要需要满足以下几点：

1、平衡性。内容要尽可能地均匀地分布到所有的机器缓存中，所有缓存空间得以充分地使用；

2、单调性。内容通过hash分派到相应的机器缓存中，现在有新的缓存节点加入，在新节点加入或者旧的节点删除的时候，hash算法应当保证原来内容还是能够映射到原来相应的节点上或者新添加的节点上，而不能映射到旧的其他节点上。

3、分散问题。在分布式集群中，用户向集群中存储数据的时候，不同用户看到机器缓存的范围可能不同，同样的内容可能被映射到不同的机器缓存中，这样就降低了系统的存储效率。所以在设计hash算法时候应当尽量降低分散的问题。
4、负载问题。分散问题是同一个内容可能被不同的用户映射到不同的缓存节点上，那么同样的，一个缓存节点可能被不同用户映射为不同的内容，造成节点的负载加重。所以在实际的hash算法设计中，应当减少这种情况。

在设计一致性hash算法中，为了较好的描述，我们将hash产生的key映射到一个32位长度的环形空间中，如下图所示：