从零开始，学会Python爬虫不再难！！！ -- （9）URL去重丨蓄力计划

最新推荐文章于 2024-05-26 09:31:07 发布

看，未来

最新推荐文章于 2024-05-26 09:31:07 发布

阅读量661

点赞数

分类专栏：从零开始，学会Python爬虫不再难！！！文章标签： python hash 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43762191/article/details/116117802

版权

从零开始，学会Python爬虫不再难！！！专栏收录该内容

22 篇文章 44 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫中URL去重的几种方法，包括使用set、MD5压缩URL、哈希表+位图以及布隆过滤器。通过理解这些方法的原理和优缺点，可以有效减少内存占用并提高爬虫效率。同时，文章提供了相关算法的简单实现和代码示例。

摘要由CSDN通过智能技术生成

知其然，知其所以然。只知其然，不知其所以然，则学习如空中楼阁。

欢迎来到本系列最核心的课程，异步并发爬虫。本部分分为四篇博客来叙述，准备好上车了吗？

由于前四篇（两篇主体，两篇番外）连续高压，所以这篇我们将URL去重部分和缓存部分分开，减轻压力。

1、set去重法

做去重的方法有很多，比方说两两比对。但是，做大并发爬虫的时候，URL的数量是很大的，一个好的算法将会大大缩短我们等待结果的时间。

说到去重，最直接的想法就是用集合（set）嘛。将URL插入到set中，可以实现自动去重的功能，因为集合的特性就是每个值不重复存在。
至于为什么说set会快呢，因为它的底层是哈希表啊。

对于数据结构不清楚的小伙伴可以看一下这里：
为实习准备的数据结构（10）-- 哈希散列表

试用set

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

看，未来 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。