爬虫去重策略

最新推荐文章于 2024-07-17 23:50:36 发布

lvzhanbin

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量4.8k

点赞数

分类专栏： python爬虫文章标签： python爬虫

python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1)将访问过的URL存储在数据库中，每次要访问一个URL时，就从数据库中查询该URL是否已经被访问过，这种方法占用内存太大，而且每次访问一个URL
都需要到数据库中查询，效率十分低下。

2）将访问过的URL存储在set中，可以在O(1)的时间内查询到一个URL是否存在于set中，但是缺点是，占用内存大，比如有1亿条URL，占用的内存是：

1000000000*2byte*50字符/1024/1024/1024 = 9G(假设字符使用的是unicode编码，每一个字符占2字节，每一个URL有50个字符)
3)URL通过MD5（可以将任意长度的字符缩减成固定长度，使占用内存进行压缩）等方法哈希后存储在set中，既能在O(1)时间内查询，又压缩了URL的存
储空间（scrapy使用的就是类似的方法）
4）使用bitmap方法，将访问过的URL通过hash函数映射到某一位上，这种方法可以大大压缩URL的存储空间，但是缺点是，会有很多的映射冲突，即多个
不同的URL映射到一个位上
5）使用bloomfilter方法对bitmap进行改进，多重哈希函数降低冲突，是对4）的改进，既能降低冲突，又能大大压缩内存

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lvzhanbin CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

123万+: 周排名

220万+: 总排名

1万+: 访问

: 等级

274: 积分

1: 粉丝

18: 获赞

5: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于Unicode编码和UTF-8编码
vasks(ffei): 如果都是中文的为什么不直接使用unicode ? 2个字节 < utf8的3字节采用gbk 是2字节的省空间
关于Unicode编码和UTF-8编码
vasks(ffei): python3 里面unicode 英文只占一个字节中文2个 In [203]: "中".encode("utf8") Out[203]: b'\xe4\xb8\xad' In [204]: "中".encode("unicode_escape") Out[204]: b'\\u4e2d' In [205]: "ll".encode("unicode_escape") Out[205]: b'll' In [206]: "ll".encode("utf8") Out[206]: b'll'
关于Unicode编码和UTF-8编码
忧郁的常凯申: 666
关于Unicode编码和UTF-8编码
huajiyuji: 不错，通俗易懂
关于Unicode编码和UTF-8编码
Surrin1999: 不错

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。