Bloom filter（布隆过滤器）

最新推荐文章于 2023-05-06 16:40:51 发布

lizhihaoweiwei

最新推荐文章于 2023-05-06 16:40:51 发布

阅读量686

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhihaoweiwei/article/details/38036627

版权

算法专栏收录该内容

38 篇文章 0 订阅

订阅专栏

问题：

在网络爬虫中，有一个要考虑的问题，由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？有如下几种方案：

1. 将访问过的URL保存到数据库。

2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。

3. URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。

4. Bit-Map方法。建立一个BitSet，将每个URL经过一个哈希函数映射到某一位。

方法1~3都是将访问过的URL完整保存，方法4则只标记URL的一个映射位，即是布隆过滤的方法。

在我前面文章中提到过，我实现了一个垂直爬虫，使用的是第 2 种和第 3 种方法的综合。但是效率是不高的，因为对于每一个 url 如果没有在 HashSet 中命中，就要去查询数据库，对于每一个 url 都去查询数据库，效率可想而知。实际上，在爬虫中，我们可以允许一部分 url 不爬取，但是不能允许一个 url 被重复爬取。布隆过滤器刚好算法这种需求，允许有“命中”的误判。

我们定义一个 m 位的unsigned int（或者由多个 unsigned int 组合而成）N，引入 k 个 hash 函数，针对每一个 url ,分别进行 hash，得到 k 个数字 x。将 N 的第 x 位都标记为1。

查询 url 是否已经被处理过，就是要判断 url 的对应的那些 hash 位是否全为1.如果不全为1，则一定没有处理过，否则很有可能处理过。如图1.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bloom filter（布隆过滤器）

问题：假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就会有如下几种方案：1. 将访问过的URL保存到数据库。2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个U
复制链接

扫一扫

专栏目录

lizhihaoweiwei CSDN认证博客专家 CSDN认证企业博客

码龄13年

189: 原创

7万+: 周排名

141万+: 总排名

54万+: 访问

: 等级

5181: 积分

40: 粉丝

40: 获赞

31: 评论

156: 收藏

私信

关注

热门文章

分类专栏

C/C++ 40篇
linux 3篇
CUDA 1篇
Windows 5篇
实践，项目 2篇
算法 38篇
UNIX编程 4篇
数据库 4篇
服务器 4篇
搜索引擎 8篇
数学 4篇
编程语言原理 1篇
Java 45篇
项目管理 1篇
计算机网络 4篇
排列组合 2篇
前端 4篇
实践 8篇
项目 4篇
并发编程 7篇
Java-IO 7篇
大数据

最新评论

数据库加字段不支持灰度发布和回滚的情况
yaliuhen: 实际的应用中，比你这情况更复杂。表结构怎删改抵押有可能，insert A() values () 删字段就不适用了
cpu 乱序执行与问题
QMCoder: 还有一点需要保证：b==1 时必然已经 a==1。这就要求CPU0上的 a==1 的执行效果先于 b==1 上完成。也就是，先写入 a==1，再写入 b==1。有个疑问， cpu0 a=1 写入了store buffer，然后b写入了cache line 对于cpu0而言，他现在的状态就是 a=1 b=1, 那么cpu1需要读a的时候，请求cpu0，获取到的不是a=1吗，那这样为啥需要sfence让cpu0刷新a到cacheline呢
Git 设置网络代理
杨Jack: 问题是第一次git clone github上的代码怎么办？
Derangement 问题
阿七sev: 伯努利寄错信问题，学习了
后缀树的创建
梦中情几许: 源码有些不对劲，博主能再发下吗

大家在看

ROS话题实战【非常有用】 189

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。