memcache的分布式是在客户端实现的,而不是在服务端实现的。
不同的客户端实现分布式的方式不同,以Cache::Memcached为例子,其采用的是余数法:
var crc = crc32(key);
var mod = crc % (nodes + 1);
var server = nodearray[mod];
上述余数法简单而且分布也比较均匀。但其缺点在于,当添加和删除缓存节点时,缓存重组的代价是十分巨大的。
由此,引入了新的分布式算法--Consistent Hashing 即一致性哈希算法。
一致性哈希算法:首先求出memcached服务器(节点)的哈希值,并将其配置到0~2e32的圆(continuum)上。然后用同样的方法求出存储数据的键的哈希值,并映射到圆上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上。如果超过2e32仍然找不到服务器,就会保存到第一台memcached服务器上。如下图所示:
从上图的状态中添加一台memcached服务器。余数分布式算法由于保存键的服务器会发生巨大变化而影响缓存的命中率,但Consistent Hashing中,只有在continuum上增加服务器的地点逆时针方向的第一台服务器上的键会受到影响。如下图所示:
Consistent Hashing最大限度地抑制了键的重新分布。而且,有的Consistent Hashing的实现方法还采用了虚拟节点的思想。使用一般的hash函数的话,服务器的映射地点的分布非常不均匀。因此,使用虚拟节点的思想,为每个物理节点(服务器)在continuum上分配100~200个点。这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。
由服务器台数(n)和增加的服务器台数(m)计算增加服务器后的命中率计算公式如下:(1 - n/(n + m)) * 100.