爬虫如何对URL去重

最新推荐文章于 2022-04-28 10:59:46 发布

tanwenfang

最新推荐文章于 2022-04-28 10:59:46 发布

阅读量838

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/tanwenfang/article/details/100600051

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

URL去重：
就是爬虫将重复抓取的url去除，避免多次抓取同一个网页，因为重复抓取不仅会浪费CPU，还会为搜索引擎系统增加负荷。爬虫一般会将待抓取的url放在一个队列中，从抓取后的网页中提取到新的url，在它们被放入队列之前，首先要确定这些新的url有没有被抓取过，如果之前已经抓取过了，就不再放入队列。

去重的方法有如下几种：

hash表：采用内存中的HashSet，是最直观的方法。HashSet中放置的就是URL的字符串，任何一个新的URL首先在HashSet中进行查找，如果HashSet中没有，就将新的Url插入HashSet中，并将URL放入待抓取队列。这个方案，好处是去重效果精确，缺点是HashSet会一直增长，迟早Out of Memory。
压缩url：在HashSet的基础上，对存入的URL进行压缩，这样存入HashSet的数据就少很多，但是数据还是会不断增长，终有一天也会Out of Memory，也不能解决本质问题。
Bloom Filter：类似于HashSet，但消耗的内存相对固定，没有HashSet一直增长的本质问题，看起来很好。但是Bloom Filter也有几个问题，一，它会将一些正常的样本过滤掉；二，在实践中，Bloom Filter的那几个参数如何设置，m,k,n设成多少才合适，这不是很好确定；三，多个爬虫任务同时启动时，每个任务可能抓取自己特定的URL，而且任务之间是独立的，这样则对于每个任务都需要一个Bloom Filter，虽然单一任务使用Bloom Filter所消耗的内存是固定的，但是多任务导致多Bloom Filter，会导致更多的内存消耗，同样存在Out of Memory的可能。
BerkeleyDB：它是一个key-value数据库，简单来说就是一个在disk上的hash表，数据存在这里不会有内存溢出的可能，这也是它可以被用来做url去重的原因。另一个另类的地方是，它是和程序运行在同一个进程空间中的，而不像一般的db，是作为单独的程序而运行。

更详细的方法描述，请参考：https://blog.csdn.net/historyasamirror/article/details/6746217