网络陷阱的预防

网络陷阱的预防

 

 

4.6网络陷阱的预防

WWW网络中,一些静态网页的超链接可能会形成环路,这会导致爬虫在这个环路中反复执行形成死循环。为了避免掉入这种陷阱,在访问新的URL前,应先与待爬行和已爬行URL队列列表中的URL进行比较,以防将URL重复加入待爬行队列。

另外,有些站点的Wbe结构相当深,因而形成了“网络陷阱”。在本系统中对搜索的深度进行了限制。每进入下一级子链接就表示深度增加了一层,当到达规定的闽值深度后,爬虫就停止往下搜索。

有些站点设置的陷阱,爬虫很难识别,这就只能在爬行过程中或爬行之后,进一步浏览爬行日志来判断网站是否设置了爬行陷阱,从而管理员可以将设置陷阱的地址添加到停用队列。

 

 

参考:搜索引擎中主题爬虫的研究与实现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值