关于LEE对<搜索引擎抓取系统概述>的简单分析与小结

有一段时间没有更新博文了,因为工作与自身的缘故,感觉比较愧对这个博客,不过吴立还是会继续更新起走的,今天在看到一篇LEE在站长平台发的关于《搜索引擎抓取系统概述(含搜索引擎工作原理等)》的解答,仔细通读了一下,感觉对站长朋友们有一定 帮助,虽然依然是“官腔”类的论调,但起码我们站长还是能够通过这类文章了解一些基本的搜索原理,以下是我提炼出来的几个关键点与自己的分析。

官1、从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。

官2、对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

官3、提取出页面内超链接,处理放入待抓队列是个不断调整的一个动态队列,比较重要的影响因素包括站点的重要程度、该url在站内的重要程度、外链推荐程度、社会化分享度等等。

官4、页面的重要程度肯定也是一个参考条件,但实际上这是一种提高资源利用率的方案。

那么根据我个人的经验与推测,个人总结出以下几点细则小结。

解1、(种子URL)其实很好理解,对于一个站点而言,种子 URL即首页,但并非绝对,事实上吴立认为任何一个网页都可成为种子URL,但重要程度,或者说抓取优先度远不如首页而已,(页面上的超链接)这个地方就很有意思了,一方面说明超链分析算法依然发挥重要性(外链的重要性),另一方面则说明搜索蜘蛛是通过根节点开始抓取,至于是广度优先抓取还是深度优先抓取则不得而知。(发现新的URL)这一点可以说明网站内容更新频率直接影响到蜘蛛抓取频率,不可否认。

解2、(对spider过去抓取过的页面保持更新维护一个URL库和页面库)这也是为什么一个网页被赋予新的快照日期的原因,因此利用某网页排名好来进行作弊或者欺诈可能行不通了。

解3、(不断调整的一个动态队列)动态队列,这个概念很有意思,在数据库里面这个动态队列实际上就是一组从1-N的数组,抓取的优先度就在这里体现了,当然了,如果你的网站还没有进入这个动态序列,那么不好意思,抓不到你,你得需要想办法把自己的URL弄进去,相信这一点也是为什么投放链接诱饵可极大增加抓取频率的原因了。

决定优先顺序的无疑首要的就是权重,即LEE所说的:站点的重要程度。其次则是:外链,最后则是社会化分享度,好点击率,页面IP量等,你懂的。

官4、(页面的重要程度肯定也是一个参考条件,但实际上这是一种提高资源利用率的方案),这一点感觉LEE很无奈的样子,但实际上也是这一点,恰好可以简单说明为什么你的原创不能展现到第一(你的权重不足),为什么百度有那么多不公平待遇(你的网站难以提升权重),等等为什么。。

说在最后:百度的开放态度值得肯定,这一点吴立在博客里面也提到过很多次了,虽然还有很多的细节做得不够,但相信真正对站长们公正的一天会到来的,但在这个转变的阵痛期,全部由站长承受似乎有点说不过去。

本文地址:http://www.cnzheyu.com/news/seonews/sn-20-668.html    转载注明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值