蜘蛛爬虫的抓取策略有哪些呢?

数据抓取系统是搜索引擎重要组成的系统之一,主要负责互联网信息的搜集、保存和更新等等,他就像蜘蛛一样在互联网中爬来爬去,所以叫做蜘蛛爬虫。

搜索引擎蜘蛛抓取页面的时候,会从一些重要的页面开始,通过内链来进入到网站的各个页面中,不断的重复这个过程,这样就会抓取到更多的页面了。由于互联网中页面在不断的修改、删除以及更新,所以搜索引擎会不断的对过去抓取到的页面进行更新。

 

当蜘蛛爬虫进入到网站的时候,首先会查看根目录下是否有Robots文件,如果有,就不会进行抓取。如果进入到一些可以抓取的网站后,蜘蛛爬虫会根据以下的策略进行抓取。

1、深度优先策略

这种策略是以前使用很多的蜘蛛爬行策略,当蜘蛛爬虫在网站中发现一个连接后,会跟着这个链接进入到相应的页面中,以此类推,直到没有新链接出现的时候,就会停止爬行。

2、宽度优先策略

这种策略就是指蜘蛛爬虫进入到页面后,会爬行这个页面上的所有链接,然后再爬行到下一层的页面链接。

3、最佳优先策略

这种策略就是指当蜘蛛爬虫进入到页面的时候,会把页面中所有的链接收集到地址库中,并进行分析,从中选出重要性较高的链接进行爬行。

影响链接重要性的因素主要有页面权重、网站规模和反应速度等等,当链接页面权重越高、网站规模越大、反应速度越快的时候,就会被优先的抓取了。

蝙蝠侠IT   https://www.batmanit.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值