在缓存系统部署的时候,常见的办法就是取余。hash(value)%N,但这有一种扩展的问题,从好的或者坏的来看,这种算法局限性比较明显。
如果有一台服务器坏了,那就变成了hash(value)%(N-1),这个时候之前的hash都有错误了;如果要增加一台服务器,那就变成了hash(value)%(N-1),这个时候之前的hash值都有问题了。
一致性hash的思路是:将原来的hash分成几个小的范围内。让数据分布到对应的各个小范围内,此时,如果有坏的一台服务器,那影响的数据就是原来服务器左右范围内的,而不是全部。同样,增加了一个新的服务器,那影响的就是原来两个服务器间的数据,其它的不受影响。
将缓存服务器理解组成一个环状。
c1-----c2
| |
| |
c4-----c3
如果把数据落到对应的缓存结点上,就命中。如果数据落到两个缓存c1 c2之间,那就将数据落到c2上。那做这个之前,应该把cache提前也落到这个环上,一般用(0-2^32-1),那计算出来后就对应到环状的缓存中。
能明显看出来,如果c2坏了,那数据就落到c3上。如果在c1和c2之间增加一个c5,那在c4和c5之间的数据将落到c5上,这样对数据的影响就小了。