假设上图A,B,C是三台服务器,现在有6万张图片,为了平均分配在每个服务器上,我们按以下方式存储:
提取图片关键字%服务器个数(3)
余数为0的存放在A服务器,余数为1的存放在B服务器,余数为2的放在C服务器
假设我们现在再添加一台服务器D,那么就会发生:
6%3=0,6%4=2,本来在A服务器的照片,变成了C服务器。
由于服务器发生了变化,导致服务器中的数据受到影响(全部数据)
于是我们将三台服务器想象成一个环状:
这是一个圆形,我们认为这个圆上存在无数个点,现在假设这个圆上存在2^32个点,每一个点有一个编号,从0到2^32,弧AB上的存放在服务器B,弧BC上的存放在服务器C上,弧CA存放在服务器A上。这时图片的关键字对2^32取余,结果看到底存放在那一台服务器上。
这时如果在添加一台服务器D:
这个时候会发现只有绿色弧上的数据受到影响,其他弧没有受到影响,相比于之前那个,影响较小,但现实中三台服务并不会平均在圆上的1/3点上,比如图下:
这种情况称为哈希偏斜,因此我们引入虚拟节点概念:
虚拟节点是不存在的点,臆想出来的点
布隆过滤器:
假设我们现在有一群非常多的整型值,不重复,现在我们需要确定一个数X在不在这群数据中?
之前讲的哈希是数据和存储位置有一个对应关系,这里的布隆过滤器实际上就是一个非常长的二进制矢量+一组哈希函数。
假设我们现在有三个不同的哈希函数A,B,C。
这是20个二进制位,要么存1,要么存0,刚开始全部为0.
现在,我们将100,200,300通过三个哈希函数计算得到下列值(这里A,B,C三个哈希函数未给出,所以得到的值是我们假设的)
那么我们将得到的值所在的二进制位全部变为1,得到以下结果:
假设我们需要判断250在不在这个数组里面,我们只需要将250通过哈希函数去计算,得到下面结果(结果也是假设的)
我们发现3和9的位置为1,但是19的位置为0,也就是说,如果250真的存在,那么250通过三个哈希函数计算得到的结果所在的位置应该全部为1,只要有一个为0,那么一定不存在。
要是250通过三个哈希函数计算得到下面结果:
250——>A——>6
250——>B——>9
250——>C——>15
我们发现6,9和15位置都为1,但是250并不存在我们的数组中,所以不能得到250一定存在这个数组中,但只要有一个位置为0,那么一定不存在。
现给出布隆过滤器以下总结: