一致性哈希算法经典实用场景
一致性哈希算法通常不适合用于服务类负载均衡
面试应对之策
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、一致性哈希算法是什么?
一致性哈希算法也是使用取模的方法,只是,刚才描述的取模法是对服务器的数量进行取模,而一致性哈希算法是对2^32取模,什么意思呢?我们慢慢聊。
首先,我们把二的三十二次方想象成一个圆,就像钟表一样,钟表的圆可以理解成由60个点组成的圆,而此处我们把这个圆想象成由2^32个点组成的圆,示意图如下:
白话解析:一致性哈希算法 consistent hashing
圆环的正上方的点代表0,0点右侧的第一个点代表1,以此类推,2、3、4、5、6……直到2^32-1,
也就是说0点左侧的第一个点代表2^32-1
我们把这个由2的32次方个点组成的圆环称为hash环。
那么,一致性哈希算法与上图中的圆环有什么关系呢?我们继续聊,仍然以之前描述的场景为例,假设我们有3台缓存服务器,服务器A、服务器B、服务器C,那么,在生产环境中,这三台服务器肯定有自己的IP地址,我们使用它们各自的IP地址进行哈希计算,使用哈希后的结果对2^32取模,可以使用如下公式示意。
hash(服务器A的IP地址) % 2^32
通过上述公式算出的结果一定是一个0到2^32-1之间的一个整数,
我们就用算出的这个整数,代表服务器A,既然这个整数肯定处于0到2^32-1之间,那么,上图中的hash环上必定有一个点与这个整数对应,而我们刚才已经说明,使用这个整数代表服务器A,那么,服务器A就可以映射到这个环上,用下图示意
白话解析:一致性哈希算法 consistent hashing
同理,服务器B与服务器C也可以通过相同的方法映射到上图中的hash环中
hash(服务器B的IP地址) % 2^32
hash(服务器C的IP地址) % 2^32
通过上述方法,可以将服务器B与服务器C映射到上图中的hash环上,示意图如下
首先将哈希值映射到 0 ~ 2的32次方的一个圆中,然后将实际的物理节点的IP地址或取其可以表示一个节点的hash值,放入到hash环中。
然后对需要插入的数据先求哈希,再顺时针沿着哈希环,找到第一个实际节点,数据将存储到该实际节点上。
tip:扩容呢:
从中可以看到受影响的范围能控制在两个节点的hashcode之间的部分数据,比起先哈希再取模,其未命中率将会得到极大的影响。
但一致性哈希算法要得到较好的效果,取决于各个实体节点在哈希环的分布情况,是否能分散,例如如下分布则会大打折扣:
二、一致性hash注意点
这种情况会造成数据分布不均衡,为了解决数据很可能分布不均匀的情况
引入虚拟节点的概念
这样通过为不同的的实际节点映射到多个虚拟节点,实现数据的均匀分布,并且扩容或缩容时并不会出现大面积的缓存穿透。
温馨提示:上述的映射只是一个理想状态,其核心思路是为每一个实体节点创建多个虚拟节点,并且核心虚拟节点的Hash值越分散越好。
三 、java实现实现一致性哈希算法
package com.moran.zuoshen;
import java.util.SortedMap;
import java.util.TreeMap;
/**
* 不带虚拟节点的一致性Hash算法
* 重点:1.如何造一个hash环,2.如何在哈希环上映射服务器节点,3.如何找到对应的节点
*/
public class Test1{
//待添加入Hash环的服务器列表
private static String[] servers = {"192.168.0.0:11", "192.168.0.1:11",
"192.168.0.2:11", "192.168.0.3:11", "192.168.0.4:11"};
//key表示服务器的hash值,value表示服务器
private static SortedMap<Integer, String> circle = new TreeMap<Integer, String>();
//得到应当路由到的结点
private static String getServer(String key) {
//得到该key的hash值
int hash = getHash(key);
//得到大于该Hash值的所有Map
SortedMap<Integer, String> subMap = circle.tailMap(hash);
if (subMap.isEmpty()) {
//如果没有比该key的hash值大的,则从第一个node开始
Integer i = circle.firstKey();
//返回对应的服务器
return circle.get(i);
} else {
//第一个Key就是顺时针过去离node最近的那个结点
Integer i = subMap.firstKey();
//返回对应的服务器
return subMap.get(i);
}
}
//使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别
private static Integer getHash(String str) {
final int p = 16777619;
int hash = (int) 2166136261L;
for (int i = 0; i < str.length(); i++)
hash = (hash ^ str.charAt(i)) * p;
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
// 如果算出来的值为负数则取其绝对值
if (hash < 0)
hash = Math.abs(hash);
return hash;
}
public static void main(String[] args) {
for (int i = 0; i < servers.length; i++) {
int hash = getHash(servers[i]);
circle.put(hash, servers[i]);
}
String[] keys = {"剑来", "裴钱", "哑巴胡大水怪"};
for (int i = 0; i < keys.length; i++)
System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i])
+ ", 被路由到结点[" + getServer(keys[i]) + "]");
}
}
带虚拟节点的
package hash;
import java.util.LinkedList;
import java.util.List;
import java.util.SortedMap;
import java.util.TreeMap;
import org.apache.commons.lang.StringUtils;
/**
* 带虚拟节点的一致性Hash算法
*/
public class ConsistentHashingWithoutVirtualNode {
//待添加入Hash环的服务器列表
private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",
"192.168.0.3:111", "192.168.0.4:111"};
//真实结点列表,考虑到服务器上线、下线的场景,即添加、删除的场景会比较频繁,这里使用LinkedList会更好
private static List<String> realNodes = new LinkedList<String>();
//虚拟节点,key表示虚拟节点的hash值,value表示虚拟节点的名称
private static SortedMap<Integer, String> virtualNodes = new TreeMap<Integer, String>();
//虚拟节点的数目,这里写死,为了演示需要,一个真实结点对应5个虚拟节点
private static final int VIRTUAL_NODES = 5;
static{
//先把原始的服务器添加到真实结点列表中
for(int i=0; i<servers.length; i++)
realNodes.add(servers[i]);
//再添加虚拟节点,遍历LinkedList使用foreach循环效率会比较高
for (String str : realNodes){
for(int i=0; i<VIRTUAL_NODES; i++){
String virtualNodeName = str + "&&VN" + String.valueOf(i);
int hash = getHash(virtualNodeName);
System.out.println("虚拟节点[" + virtualNodeName + "]被添加, hash值为" + hash);
virtualNodes.put(hash, virtualNodeName);
}
}
System.out.println();
}
//使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别
private static int getHash(String str){
final int p = 16777619;
int hash = (int)2166136261L;
for (int i = 0; i < str.length(); i++)
hash = (hash ^ str.charAt(i)) * p;
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
// 如果算出来的值为负数则取其绝对值
if (hash < 0)
hash = Math.abs(hash);
return hash;
}
//得到应当路由到的结点
private static String getServer(String key){
//得到该key的hash值
int hash = getHash(key);
// 得到大于该Hash值的所有Map
SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);
String virtualNode;
if(subMap.isEmpty()){
//如果没有比该key的hash值大的,则从第一个node开始
Integer i = virtualNodes.firstKey();
//返回对应的服务器
virtualNode = virtualNodes.get(i);
}else{
//第一个Key就是顺时针过去离node最近的那个结点
Integer i = subMap.firstKey();
//返回对应的服务器
virtualNode = subMap.get(i);
}
//virtualNode虚拟节点名称要截取一下
if(StringUtils.isNotBlank(virtualNode)){
return virtualNode.substring(0, virtualNode.indexOf("&&"));
}
return null;
}
public static void main(String[] args){
String[] keys = {"太阳", "月亮", "星星"};
for(int i=0; i<keys.length; i++)
System.out.println("[" + keys[i] + "]的hash值为" +
getHash(keys[i]) + ", 被路由到结点[" + getServer(keys[i]) + "]");
}
}
一致性哈希算法的两个关键:
顺时针选择节点
可以使用TreeMap,一来具备排序功能,天然提供了相应的方法获取顺时针的一个元素。
TreeMap 的 ceilingEntry()方法用于返回与大于或等于给定键元素(ele)的最小键元素链接的键值对。
虚拟节点如何生成分散的哈希值
生成分散的哈希值,通常可以基于md5来实现。
四、 一致性哈希算法被“滥用”
一致性哈希算法在面对分布式缓存有着得天独厚的优势,因为它的产生就是为了解决分布式缓存扩容、缩容带来的缓存穿透问题。但现在一致性在分布式服务调用的负载算法竟然也提供了一致性哈希算法的实现。
在Dubbo中为了实现客户端在服务调用时对服务提供者进行负载均衡,官方也提供了一致性哈希算法;在RocketMQ集群消费模式时消费队列的负载均衡机制竟然也实现了一致性哈希算法,但我觉得一致性哈希算法在这些领域完全无法发挥其他优势,比轮循、加权轮循、随机、加权随机算法等负载均衡算法相比,实现复杂,性能低下,运维管理复杂。
因为在服务调用等负载均衡算法,多次服务调用之间关联性不太强,在服务端扩容、缩容后,对于客户端来说其实并不关心路由到哪台服务器,其关心的是能否返回一台服务器即可。
五、面试
在面试过程中,遇到一致性哈希算的时候,尽量能从其使用场景:分布式缓存负载均衡,特别是突出扩容、缩容能有效避免缓存穿透的问题。同时需要阐述一致性哈希算法的缺陷以及其应对策略(虚拟节点)。
聊的差不多可以顺便提一下阅读过一致性哈希算法的源码:强调TreeMap与虚拟节点哈希值的生成方法。
最后可以尝试引导面试官聊聊现在一致性哈希算法有点被滥用的嫌疑,在轻松愉快的讨论中与面试交流技术,面试官好评度蹭蹭往上涨。
写在最后,感谢点赞关注收藏转发
欢迎关注我的微信公众号 【猿之村】
来聊聊Java面试
加我的微信进一步交流和学习,微信手动搜索
【codeyuanzhicunup】添加即可
如有相关技术问题欢迎留言探讨,公众号主要用于技术分享,包括常见面试题剖析、以及源码解读、微服务框架、技术热点等。