搜索引擎—网络爬虫抓取策略

本文介绍了搜索引擎爬虫的四种抓取策略:宽度优先遍历、非完全PageRank、OCIP和大站优先策略。这些策略的目标是优先抓取重要网页,通过网页流行性和重要性指标来确定抓取顺序。宽度优先策略按链接顺序抓取;非完全PageRank策略基于局部PageRank计算;OCIP策略是一种快速计算重要性的方法;大站优先策略侧重大型网站的网页。
摘要由CSDN通过智能技术生成

爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。

爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。
网页的重要性,评判标准不同,大部分采用网页的流行性进行定义。

效果较好或有代表性的抓取策略:
1、宽度优先遍历策略
2、非完全PageRank策略
3、OCIP策略
4、大站优先策略


1、宽度优先策略(Breath First)

基本思想:将新下载网页包含的链接直接追加到待抓取URL队列末尾。

这里写图片描述

上图即为此策略示意图:
假设队头的网页是1号网页,从1号网页中抽取出3个链接指向2号、3号和4号网页,于是按照编号顺序依次放入待抓取URL队列,图中网页的编号就是在待抓取URL队列中的顺序编号,之后爬虫以此顺序进行下载。

实验表明,这种策略效果很好,虽然看似机械,但实际上的网页抓取顺序基本上是按照网页的重要性排序。之所以如此,有研究人员认为:如果某个网页包含很多入链,那么更有可能被宽度优先遍历策略早早抓到,入链个数从侧面体现了网页的重要性,即实际上宽度优先遍历策略隐含了一些网页优先级假设。


2、非完全PageRank策略(Partial PageRank)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值