一.Hash算法在分布式系统中的应用
在互联网应用中,随着业务量与用户量的加大,单台机器的缓存支撑不了系统的需求,这时候就会用到分布式缓存。为了让缓存均匀的散落在集群中的各个节点上,这时候就会用到Hash算法。
二.传统的Hash算法弊端
传统的Hash算法比如 hash(key)%集群节点数,在集群数固定的情况下可以正常使用。但是随着业务量的加大,可能在缓存集群中需要增加台机器,这个时候就会出现以前存在的缓存根据算法去找会找不到,会有四分之三的缓存名中不了,这个时候大量的数据就会访问数据库,造成数据库不堪重负。如果想要继续使用传统的Hash算法就需要加班来扩容,并预热数据。
三.如果想要不加班就能轻松的扩容,那有什么办法呢?这时候就需要用到一致性Hash算法了。一致性Hash算法的大概原理如下:
1.对集群中的节点根据某一属性生成固定数量的虚拟节点。把这些虚拟节点生成散列Hash值,越分散越好,把这些Hash值求绝对值顺时针的放在一个圆环上。
2.对数据的key也求散列Hash值,把数据也放到环上,按顺时针方向,找离它最近的节点就存储到这个节点上。
3.圆环的特点是要排序存储要被快速查找,还要方便变更,可以用TreeMap来作为圆环.