爬虫如何对URL去重

URL去重
就是爬虫将重复抓取的url去除,避免多次抓取同一个网页,因为重复抓取不仅会浪费CPU,还会为搜索引擎系统增加负荷。爬虫一般会将待抓取的url放在一个队列中,从抓取后的网页中提取到新的url,在它们被放入队列之前,首先要确定这些新的url有没有被抓取过,如果之前已经抓取过了,就不再放入队列。

去重的方法有如下几种:

  • hash表:采用内存中的HashSet,是最直观的方法。HashSet中放置的就是URL的字符串,任何一个新的URL首先在HashSet中进行查找,如果HashSet中没有,就将新的Url插入HashSet中,并将URL放入待抓取队列。这个方案,好处是去重效果精确,缺点是HashSet会一直增长,迟早Out of Memory。
  • 压缩url:在HashSet的基础上,对存入的URL进行压缩,这样存入HashSet的数据就少很多,但是数据还是会不断增长,终有一天也会Out of Memory,也不能解决本质问题。
  • Bloom Filter:类似于HashSet,但消耗的内存相对固定,没有HashSet一直增长的本质问题,看起来很好。但是Bloom Filter也有几个问题,一,它会将一些正常的样本过滤掉;二,在实践中,Bloom Filter的那几个参数如何设置,m,k,n设成多少才合适,这不是很好确定;三,多个爬虫任务同时启动时,每个任务可能抓取自己特定的URL,而且任务之间是独立的,这样则对于每个任务都需要一个Bloom Filter,虽然单一任务使用Bloom Filter所消耗的内存是固定的,但是多任务导致多Bloom Filter,会导致更多的内存消耗,同样存在Out of Memory的可能。
  • BerkeleyDB:它是一个key-value数据库,简单来说就是一个在disk上的hash表,数据存在这里不会有内存溢出的可能,这也是它可以被用来做url去重的原因。另一个另类的地方是,它是和程序运行在同一个进程空间中的,而不像一般的db,是作为单独的程序而运行。

更详细的方法描述,请参考:https://blog.csdn.net/historyasamirror/article/details/6746217

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值