散列(hash)在我看来就是一个数组,而与数组不同的点在于数组是按顺序写入的,而hash是按照一定的hash算法确定元素在数组中的位置的。hash最难的问题在于会有冲突出现,如果两个object根据相应的hash算法得出的值一样便产生了hash冲突。在所有解决hash冲突的方法中,我最欣赏的是链式解决法,即将hash到同一位置的元素用链表连接。当然还有其它几种处理hash冲突的算法,比如建立公共溢出区间、开放地址法(往前一个位置或者后一个位置添加)、再hash法。在jdk1.8的ConcurrentHashMap中处理hash冲突的算法应该是非常经典的了。首先首先链式存储法,当链式存储法存储数据超过一定阈值后将数据转为红黑树存储。有兴趣可以去看看源码哦!
以上讲的hash是将顺序存储的数组。而一致性hash算法将数组首尾相连,构成一个环向数组。那么环向数组有什么好处呢?一致性hash算法目前用处最大的地方在于分布式服务或者存储。假设在一个环山均匀分布着若干个点,这些点分别映射相应的服务器,那么当一个请求过来时,根据相应的key值总能将请求映射到环上,而我们按照一定的顺序,将被映射到环上的请求匹配一个服务进行处理,这样便达成了分布式的运算处理。如图,我们顺时针处理的话,就是第四个节点处理key的请求了。
以上一致性hash的实现只满足了单调性与负载均衡和一般hash算法具备的分散性特征,但缺少了平衡性,因此不足以被大规模集群利用。而在对一致性hash加入了虚拟节点后,便较好的解决此类问题。所谓虚拟节点是指节点指向的机器只是一个位置,而在该位置上可以拥有多台真实机器,具体选择那一台机器就看算法如何实现了。虚拟节点可以让一台机器对应多个虚拟节点,也可以让一个虚拟节点对应多个机器。这样多对多的一种实现,可以较大程度的保证平衡性。
基本原理讲明白了,我们试着用java实现一个简单的一致性hash。
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.util.ArrayList;
import java.util.List;
import java.util.Map.Entry;
import java.util.TreeMap;
public class ConsistantHash {
private final int NUMBER = 15;
TreeMap<Long, Node> treemap = new TreeMap<Long, Node>();
public static ConsistantHash getInstance(){
return InstanceHolder.consistantHash;
}
public Machine chooseMachine(String key) {
Entry<Long, Node> en = treemap.ceilingEntry(hash(key));
if(en == null) {
System.out.print("Virtual Machine " + treemap.firstEntry().getKey() + " dealing with job " );
return treemap.firstEntry().getValue().chooseMachine(key);
}
long sequence = treemap.tailMap(hash(key)).firstKey();
Node node = treemap.get(sequence);
System.out.print("Virtual Machine " + sequence + " dealing with job " );
return node.chooseMachine(key);
}
public void addMachine(final String ip, final String name) {
Machine m = new Machine(ip, name);
if(treemap.containsKey(hash(m.toString()))) {
treemap.get(hash(m.toString())).addMachine(m);
} else {
Node nodes = new Node();
nodes.addMachine(m);
treemap.put(hash(m.toString()), nodes);
}
}
private long hash(String key) {
ByteBuffer buf = ByteBuffer.wrap(key.getBytes());
int seed = 0x1234ABCD;
ByteOrder byteOrder = buf.order();
buf.order(ByteOrder.LITTLE_ENDIAN);
long m = 0xc6a4a7935bd1e995L;
int r = 47;
long h = seed ^ (buf.remaining() * m);
long k;
while (buf.remaining() >= 8) {
k = buf.getLong();
k *= m;
k ^= k >>> r;
k *= m;
h ^= k;
h *= m;
}
if (buf.remaining() > 0) {
ByteBuffer finish = ByteBuffer.allocate(8).order(ByteOrder.LITTLE_ENDIAN);
// for big-endian version, do this first:
// finish.position(8-buf.remaining());
finish.put(buf).rewind();
h ^= finish.getLong();
h *= m;
}
h ^= h >>> r;
h *= m;
h ^= h >>> r;
buf.order(byteOrder);
return h & NUMBER;
}
static class InstanceHolder{
final static ConsistantHash consistantHash = new ConsistantHash();
}
class Node{
List<Machine> machine = new ArrayList<Machine>();
public void addMachine(Machine m) {
machine.add(m);
}
public Machine chooseMachine(String key){
return machine.get((int) (hash(key) & (machine.size() - 1)));
}
public String toString(){
StringBuilder sb = new StringBuilder();
machine.forEach(v->sb.append(v.toString()));
return sb.toString();
}
}
final class Machine{
final String ip;
final String name;
public Machine(String ip, String name) {
super();
this.ip = ip;
this.name = name;
}
public String getIp() {
return ip;
}
public String getName() {
return name;
}
@Override
public int hashCode() {
return this.toString().hashCode();
}
@Override
public String toString() {
return "Machine [ip=" + ip + ", name=" + name + "]";
}
}
}
结果展示
Virtual Machine 13 dealing with job Machine [ip=192.168.185.69, name=machine69]
Virtual Machine 8 dealing with job Machine [ip=192.168.185.64, name=machine64]
Virtual Machine 2 dealing with job Machine [ip=192.168.185.60, name=machine60]
Virtual Machine 13 dealing with job Machine [ip=192.168.185.69, name=machine69]
Virtual Machine 15 dealing with job Machine [ip=192.168.185.68, name=machine68]
Virtual Machine 1 dealing with job Machine [ip=192.168.185.62, name=machine62]
Virtual Machine 8 dealing with job Machine [ip=192.168.185.64, name=machine64]
Virtual Machine 1 dealing with job Machine [ip=192.168.185.62, name=machine62]
Virtual Machine 8 dealing with job Machine [ip=192.168.185.64, name=machine64]
Virtual Machine 15 dealing with job Machine [ip=192.168.185.68, name=machine68]
实验结果看出,可以实现一定的平衡性,不过还是有很多节点没有用到,应该是测试数量的问题。不过这里的代码存在的另一个问题是虚拟节点内部没有实现。这个问题有待继续思考。