hash 一致性是啥？

最新推荐文章于 2022-07-12 22:51:35 发布

mr.杰瑞

最新推荐文章于 2022-07-12 22:51:35 发布

阅读量370

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/jerryvd/article/details/115622541

版权

算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

可算搞明白了，hash一致性是一种算法，保证了服务器的高可用，
一致性hash算法提出了在动态变化的Cache环境中，判定哈希算法好坏的四个定义：

平衡性(Balance)：平衡性是指哈希的结果能够尽可能分布到所有的缓冲中去，这样可以使得所有的缓冲空间都得到利用。很多哈希算法都能够满足这一条件。
单调性(Monotonicity)：单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中，又有新的缓冲加入到系统中。哈希的结果应能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去，而不会被映射到旧的缓冲集合中的其他缓冲区。
分散性(Spread)：在分布式环境中，终端有可能看不到所有的缓冲，而是只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上时，由于不同终端所见的缓冲范围有可能不同，从而导致哈希的结果不一致，最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的，因为它导致相同内容被存储到不同缓冲中去，降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应能够尽量避免不一致的情况发生，也就是尽量降低分散性。
负载(Load)：负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中，那么对于一个特定的缓冲区而言，也可能被不同的用户映射为不同
的内容。与分散性一样，这种情况也是应当避免的，因此好的哈希算法应能够尽量降低缓冲的负荷。

在分布式集群中，对机器的添加删除，或者机器故障后自动脱离集群这些操作是分布式集群管理最基本的功能。如果采用常用的hash(object)%N算法，那么在有机器添加或者删除后，很多原有的数据就无法找到了，这样严重的违反了单调性原则。

总结一下：
最早的hash是以服务器的数量取mod, 这样处理的话，但是如果如果增加服务器或者服务器突然宕机时，可能会造成数据读取发生错误。
为了解决这个问题，用了环形Hash空间，按照常用的hash算法来将对应的key哈希到一个具有2^32
次方个桶的空间中，即0~(2^32)-1的数字空间中。现在我们可以将这些数字头尾相连，想象成一个闭合的环形最后是用一个2的32次方，取mod。每个点按照顺时针方向排列。
在采用一致性哈希算法的分布式集群中将新的机器加入，其原理是通过使用与对象存储一样的Hash算法将机器也映射到环中（一般情况下对机器的hash计算是采用机器的IP或者机器唯一的别名作为输入值），然后以顺时针的方向计算，将所有对象存储到离自己最近的机器中

这样即使是增加服务器或者是某个服务器宕机，只影响当前服务器

具体看下面的文章
https://blog.csdn.net/cb_lcl/article/details/81448570