Bloom Filter布尔过滤

最新推荐文章于 2022-08-21 10:59:51 发布

吐槽达达仔

最新推荐文章于 2022-08-21 10:59:51 发布

阅读量189

点赞数

分类专栏：杂谈文章标签： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dacoolbaby/article/details/84462367

版权

杂谈专栏收录该内容

18 篇文章 0 订阅

订阅专栏

最近在研究Python，想用Python写一个爬虫来爬数据。

爬虫有几个关键的地方，一个是防止如何递归地重复爬一个网址，一个就是页面信息的解析。

那么这里主要介绍一下如何通过bloom filter达到判断一个网址是否被爬过。

bloom filter的介绍refer：http://blog.csdn.net/jiaomeng/article/details/1495500

下面我们具体来看Bloom Filter是如何用位数组表示集合的。初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

为了表达S={x₁, x₂,…,x_n}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x，第i个哈希函数映射的位置h_i(x)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位）。

这个图我看的不是很明白，所以我自己画了一个图。

如果在Python下面使用bloom filter，可以导入一个包来使用。

http://sourceforge.net/projects/pybloom/

吐槽达达仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bloom Filter布尔过滤

最近在研究Python，想用Python写一个爬虫来爬数据。爬虫有几个关键的地方，一个是防止如何递归地重复爬一个网址，一个就是页面信息的解析。那么这里主要介绍一下如何通过bloom filter达到判断一个网址是否被爬过。bloom filter的介绍refer：http://blog.csdn.net/jiaomeng/article/details/1495500 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。