一致性哈希

蛋挞_Bao

于 2019-11-20 21:43:54 发布

阅读量170

点赞数

分类专栏： Java 文章标签： Java

本文链接：https://blog.csdn.net/weixin_42642341/article/details/103172234

版权

Java 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一致性哈希

近期无意接触到了一致性哈希的内容，所以作为学习，整合了网上资料加入了个人理解，学习了有关一致性哈希的内容

演变历史

最初当我们往集群里存入数据时，数据会插入到任意一台机器上。那查询时，就需要遍历每一台机器才能查询到我们需要的数据。这样的效率就会相对低下
于是为了改善这种情况，就采取了哈希的方式，针对数据进行哈希计算后，再对机器数取余数，那么就可以得到这条数据需要存储的位置。那通过这样的方式就能知道这条数据在哪台机器上，可以快速的命中这条数据，但同样还是存在着一些缺陷
当实际环境因为业务需要增减机器时，那么哈希取余数后的值就发生变化了，会导致缓存中的数据失效。当大量缓存同时失效时可能会引起缓存雪崩的现象（在缓存中无法命中数据时，则会把压力直接传达到底层数据库，那大量缓存失效时，数据库可能会在较大的压力下的导致集群崩溃），导致集群宕机，为了避免这一现象，引入了一致性哈希

概念

一致性Hash算法也是使用取模的方法，一致性Hash算法是对2^32取模。一致性Hash算法将整个哈希值空间组织成一个虚拟的圆环，如假设某哈希函数H的值空间为0，1，2，3直至2^32-1（即哈希值是一个32位无符号整形）的一个圆环。这样的一个圆环被称作Hash环

节点分布

假设我们有4台缓存服务器，服务器A、服务器B、服务器C，服务器D，那么，在生产环境中，这4台服务器肯定有自己的唯一标识，我们使用它们各自的唯一标识作为关键字进行哈希计算，使用哈希后的结果对2^32取模，将服务器的哈希值映射到这个圆环上。

数据分配

接下来使用如下算法定位数据访问到相应服务器：将数据key使用相同的函数Hash计算出哈希值，并确定此数据在环上的位置，从此位置沿环顺时针“行走”，第一台遇到的服务器就是其应该定位到的服务器。

为什么hash一致性的数据空间范围是2^32次方？

因为，java中int的最大值是2^31-1最小值是-2^31,2^32刚好是无符号整形的最大值；

可扩展性以及容错性

现假设Node C不幸宕机，可以预想到此时对象A、B、D不会受到影响，本来要入C的对象则顺延进入D而已。一般的，在一致性Hash算法中，如果一台服务器不可用，则受影响的数据仅仅是此服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它不会受到影响。此时对象Object A、B、D不受影响。一般的，在一致性Hash算法中，如果增加一台服务器，则受影响的数据仅仅是新服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它数据也不会受到影响。综上所述，一致性Hash算法对于节点的增减都只需重定位环空间中的一小部分数据，具有较好的容错性和可扩展性。

一致性Hash算法在服务节点太少时，容易因为节点分部不均匀而造成数据倾斜（被缓存的对象大部分集中缓存在某一台服务器上）问题,此时会造成大量数据集中到Node A上，而只有极少量会定位到Node B上，从而出现hash环偏斜的情况，当hash环偏斜以后，缓存往往会极度不均衡的分布在各服务器上，如果想要均衡的将缓存分布到2台服务器上，最好能让这2台服务器尽量多的、均匀的出现在hash环上，此时就引入了虚拟节点的概念。将现有的物理节点通过虚拟的方法复制出来，即对每一个服务节点计算多个哈希，每个计算结果位置都放置一个此服务节点，称为虚拟节点。

作者：蛋挞

日期：2019.11.20

蛋挞_Bao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
一致性哈希

一致性哈希近期无意接触到了一致性哈希的内容，所以作为学习，整合了网上资料加入了个人理解，学习了有关一致性哈希的内容演变历史最初当我们往集群里存入数据时，数据会插入到任意一台机器上。那查询时，就需要遍历每一台机器才能查询到我们需要的数据。这样的效率就会相对低下于是为了改善这种情况，就采取了哈希的方式，针对数据进行哈希计算后，再对机器数取余数，那么就可以得到这条数据需要存储...
复制链接

扫一扫

专栏目录