爬虫访问优先级别与索引逻辑(爬虫更新频率)

众所周知,搜索引擎爬虫对页面的更新频率主要依靠链接的广泛度(流行度)来判断的,也就是说那些有较多外链和内链的页面会有较高的更新频率。
* 首页通常有最多的外链
* 其次是产品分类,二级分类 到三级分类等逐级衰减
* 最后在内容或产品页面会获得很少的关注

所以网站的架构决定了,爬虫索引的优先级别。下图是一个经典的网站结构层级

[img]http://dl.iteye.com/upload/attachment/204509/2c1acca3-3d6c-3473-97b2-4e44d2f81efe.gif[/img]

重要页面获得优先索引,这在算法上市非常友好的。

[img]http://dl.iteye.com/upload/attachment/204511/7f60fb56-06a0-387d-a07c-a2a4cc01cddb.gif[/img]

紫色节点是最重要的,我们可以看到这也是首要的入口。其下面页面通过它来逐级传递因为这种路径结构决定了搜索引擎的爬虫路径,必然越向下级的页面将获得很少的关注和索引机会。

例如分类站点,他包含了很多的内容如同上图一样有主要的分类,子分类和搜索结果页面等等。这些页面较主页有较低的权重,但他们的索引结果影响到其他的内容-detail信息、广告等。这些重要的页面却起源于List,而且在list上展现的广告相比list本身又是很少更新的。

国外的测试研究,通过有分类和没有分类的类目页面对比索引量,该索引量通过两种方式获得,1)site命令 2)Google Webmaster Tools(GWT) 结果如图:

[img]http://dl.iteye.com/upload/attachment/204531/fe3a842c-8a94-3cef-b127-95c625e06af7.gif[/img]

我们看到的结论是什么?
1、 页面数量越多,收录的可能性越低;
2、 Site命令和GWT的数值有较大的偏差,但总体趋势相同;
3、 对于翻页后的收录量大致按页衰减1.2-1.3%/page

[table]
||1 ||2 ||3 ||4 ||5 .....>>
[/table]
衰减是否按照顺序和入口机会来很衡量的。很简单他们又做了改进测试;
改进方案:
[table]
||1 ||2 ||3 ||4 ||5 ||... ||10 ||...||15 ||.....>>
[/table]

一个月后观察到结果是

[img]http://dl.iteye.com/upload/attachment/204537/d009b87f-6715-3de0-a4d0-737fea6a06b1.gif[/img]

说明,页面收录的机会是相等的。新增页面的入口并没有给相邻的页面带来权重的提高也就是说爬虫并不是严格按照结构顺序索引的。

越多的页面链接指向list,他们将会获得较好的收录和索引机会;
页面距离入口地址越远,收录的机会越小。建议不要创建过深的网站结构,页面间的关联会提升入口的索引优先。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值