Crawler中的问题

URL判重:
Larbin中使用了hashTable将访问过的URLhash到位图中,如果该bitmap中对应位置为1则认为该URL访问过。
问题在于hash映射存在冲突,所以有可能误判,将没访问过的URL认为访问。
另一解决方案是在内存中维持2个map,一个map保存待访问的URL,一个map保存已访问过的URL。启动一线程定时
已访问过的map中的URL写入URL库,然后实时查询URL库。
问题在于URL库会增大难以迅速判重


异步下载网页?


在遇到服务器重置,和网页解析错误时如何保证健壮性?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值