一致性哈希,虚拟节点,布隆过滤器

本文介绍了如何通过哈希函数在分布式环境中均匀分配数据,并探讨了当服务器数量增加时可能引发的数据迁移问题。提出了使用圆环模型来减少影响,并解释了哈希偏斜现象。接着,文章深入讲解了布隆过滤器的概念,利用多个哈希函数在二进制向量中判断元素存在性的高效方法,以及其在判断数据是否存在时的误判可能性。布隆过滤器在存储空间和效率之间找到了平衡,是大数据和分布式系统中常用的工具。
摘要由CSDN通过智能技术生成

 

假设上图A,B,C是三台服务器,现在有6万张图片,为了平均分配在每个服务器上,我们按以下方式存储:

提取图片关键字%服务器个数(3)

余数为0的存放在A服务器,余数为1的存放在B服务器,余数为2的放在C服务器

假设我们现在再添加一台服务器D,那么就会发生:

6%3=0,6%4=2,本来在A服务器的照片,变成了C服务器。

由于服务器发生了变化,导致服务器中的数据受到影响(全部数据)

于是我们将三台服务器想象成一个环状:

 这是一个圆形,我们认为这个圆上存在无数个点,现在假设这个圆上存在2^32个点,每一个点有一个编号,从0到2^32,弧AB上的存放在服务器B,弧BC上的存放在服务器C上,弧CA存放在服务器A上。这时图片的关键字对2^32取余,结果看到底存放在那一台服务器上。

这时如果在添加一台服务器D:

 这个时候会发现只有绿色弧上的数据受到影响,其他弧没有受到影响,相比于之前那个,影响较小,但现实中三台服务并不会平均在圆上的1/3点上,比如图下:

 这种情况称为哈希偏斜,因此我们引入虚拟节点概念:

 虚拟节点是不存在的点,臆想出来的点

布隆过滤器:

假设我们现在有一群非常多的整型值,不重复,现在我们需要确定一个数X在不在这群数据中?

之前讲的哈希是数据和存储位置有一个对应关系,这里的布隆过滤器实际上就是一个非常长的二进制矢量+一组哈希函数。

假设我们现在有三个不同的哈希函数A,B,C。

 这是20个二进制位,要么存1,要么存0,刚开始全部为0.

现在,我们将100,200,300通过三个哈希函数计算得到下列值(这里A,B,C三个哈希函数未给出,所以得到的值是我们假设的)

 那么我们将得到的值所在的二进制位全部变为1,得到以下结果:

 假设我们需要判断250在不在这个数组里面,我们只需要将250通过哈希函数去计算,得到下面结果(结果也是假设的)

 我们发现3和9的位置为1,但是19的位置为0,也就是说,如果250真的存在,那么250通过三个哈希函数计算得到的结果所在的位置应该全部为1,只要有一个为0,那么一定不存在。

要是250通过三个哈希函数计算得到下面结果:

250——>A——>6

250——>B——>9

250——>C——>15

我们发现6,9和15位置都为1,但是250并不存在我们的数组中,所以不能得到250一定存在这个数组中,但只要有一个位置为0,那么一定不存在。

现给出布隆过滤器以下总结:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值