从零开始,学会Python爬虫不再难!!! -- (9)URL去重丨蓄力计划

本文介绍了Python爬虫中URL去重的几种方法,包括使用set、MD5压缩URL、哈希表+位图以及布隆过滤器。通过理解这些方法的原理和优缺点,可以有效减少内存占用并提高爬虫效率。同时,文章提供了相关算法的简单实现和代码示例。
摘要由CSDN通过智能技术生成

知其然,知其所以然。只知其然,不知其所以然,则学习如空中楼阁。

欢迎来到本系列最核心的课程,异步并发爬虫。本部分分为四篇博客来叙述,准备好上车了吗?

由于前四篇(两篇主体,两篇番外)连续高压,所以这篇我们将URL去重部分和缓存部分分开,减轻压力。


1、set去重法

做去重的方法有很多,比方说两两比对。但是,做大并发爬虫的时候,URL的数量是很大的,一个好的算法将会大大缩短我们等待结果的时间。

说到去重,最直接的想法就是用集合(set)嘛。将URL插入到set中,可以实现自动去重的功能,因为集合的特性就是每个值不重复存在。
至于为什么说set会快呢,因为它的底层是哈希表啊。

对于数据结构不清楚的小伙伴可以看一下这里:
为实习准备的数据结构(10)-- 哈希散列表

试用set

s 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

看,未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值