如何判断一个元素是否存在于数亿级数据集中？

利来利往

于 2021-08-27 15:03:50 发布

阅读量146

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODYyNTExNw==&mid=2247487153&idx=1&sn=4fd14fa27265426ed7dca97eea237140&source=41#wechat_redirect

版权

我们通过一个例子来理解其原理。

假设一个二进制数组，长度为8，初始值都为0（0表示不存在）。

现添加元素 张三，先通过hash函数定位其在二进制数组的位置，然后将此位置的值设为1：

hash1(张三) % 8 = 4

现在需要判断 李四 是否存在，用同样的方法计算出其位置，然后取此位置的值

值为0，说明 李四 不存在。

这就是基本原理。

我们都知道哈希冲突是普遍存在的，所以通过一个hash函数定位元素是不可靠的。

例如张三、王五的hash定位都是4：

hash1(张三) % 8 = 4hash1(王五) % 8 = 4

张三 是已经存在的元素，王五不存在，但因为[4] 的值是 1，所以对王五的判断结果是存在，这就误判了。

为了解决哈希冲突的问题，通常会使用多个hash函数对元素进行定位，例如：

同一个元素，经过多个不同的hash算法，计算出来的结果相同的概率就非常低了。

计算出来的位置的值如果包含0，那么可以肯定元素一定不存在

相反，如果都是1，却不能肯定元素一定存在，因为可能有哈希冲突

如何判断一个元素是否存在于一个亿级数据集中？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何判断一个元素是否存在于数亿级数据集中？

我们通过一个例子来理解其原理。假设一个二进制数组，长度为8，初始值都为0（0表示不存在）。现添加元素张三，先通过hash函数定位其在二进制数组的位置，然后将此位置的值设为1：hash1(张三) % 8 = 4现在需要判断李四是否存在，用同样的方法计算出其位置，然后取此位置的值值为0，说明李四不存在。这就是基本原理。我们都知道哈希冲突是普遍存在的，所以通过一个hash函数定位元素是不可靠的。例如张三、王五的hash定位都是4： hash1(张三)...
复制链接

扫一扫

利来利往 CSDN认证博客专家 CSDN认证企业博客

码龄15年

403: 原创

1万+: 周排名

1828: 总排名

138万+: 访问

: 等级

1万+: 积分

189: 粉丝

144: 获赞

141: 评论

239: 收藏

私信

关注

热门文章

分类专栏

最新评论

【算法】跑得快AI
2401_86284394: 胜率有多少呢
判断国内ip
小王毕业啦: 博主的这篇关于“判断国内ip-CSDN博客”的文章实在是太有价值了！通过细致的描述和深度分析，我对这个主题有了全新的认识。博主的功底和专业性让我深感佩服，期待未来能够看到更多类似高质量的文章。感谢博主的分享，也希望能够得到更多指导，共同进步！
[手游项目2]-24-linux MySql编译安装
利来利往: 清理log mysql -u root -p purge master logs before date_sub( now( ), interval 7 day);
【算法】跑得快AI
m0_70546509: 哥们来个联系方式
【算法】跑得快AI
2301_81154909: 设置隐私加不了了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。