如何在亿级数据中判断一个元素是否存在？

最新推荐文章于 2023-08-31 10:38:20 发布

mghio

最新推荐文章于 2023-08-31 10:38:20 发布

阅读量476

点赞数

分类专栏： Java 文章标签： java 算法大数据数据结构

本文链接：https://blog.csdn.net/Meldoy_mgh/article/details/105622861

版权

本文介绍了如何在大数据背景下，利用布隆过滤器判断一个元素是否存在于亿级数据中。布隆过滤器是一种空间效率高、判断概率准确的数据结构，适用于不存储原始元素且允许一定误判率的场景。文章详细讲解了布隆过滤器的工作原理、如何实现、影响误判率的因素以及时间复杂度和空间复杂度分析。

摘要由CSDN通过智能技术生成

前言

在日常工作中，经常要判断一个元素是否在一个集合中。假设你要向浏览器添加一项功能，该功能可以通知用户输入的网址是否是恶意网址，此时你手上有大约 1000 万个恶意 URL 的数据集，你该如何实现该功能。按我之前的思维，要判断一个元素在不在当前的数据集中，首先想到的就是使用 hash table，通过哈希函数运行所有的恶意网址以获取其哈希值，然后创建出一个哈希表（数组）。这个方案有个明显的缺点，就是需要存储原始元素本身，内存占用大，而我们其实主要是关注 当前输入的网址在不在我们的恶意 URL 数据集中，也就是之前的恶意 URL 数据集的具体值是什么并不重要，通过吴军老师的《数学之美》了解到，对于这种场景大数据领域有个用于在海量数据情况下判断某个元素是否已经存在的算法很适合，关键的一点是该算法并不存储元素本身，这个算法就是 — 布隆过滤器(Bloom filter)。

原理

布隆过滤器是由巴顿.布隆于一九七零年提出的，在维基百科中的描述如下：

A Bloom filter is a space-efficient probabilistic data structure, conceived by Burton Howard Bloom in 1970, that is used to test whether an element is a member of a set.

布隆过滤器是一个数据结构，它可以用来判断某个元素是否在集合内，具有运行快速&#

最低0.47元/天解锁文章

mghio

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
如何在亿级数据中判断一个元素是否存在？

前言在日常工作中，经常要判断一个元素是否在一个集合中。假设你要向浏览器添加一项功能，该功能可以通知用户输入的网址是否是恶意网址，此时你手上有大约 1000 万个恶意 URL 的数据集，你该如何实现该功能。按我之前的思维，要判断一个元素在不在当前的数据集中，首先想到的就是使用 hash table，通过哈希函数运行所有的恶意网址以获取其哈希值，然后创建出一个哈希表（数组）。这个方案有个明显的缺点，...
复制链接

扫一扫

专栏目录