SEO前传 - 解读搜索引擎(采集)

seo的一个基础工作是将网页提供给搜索引擎,那么要完成这项工作有两种方法:1、主动 2、被动


为什么这样说这里要解读一下搜索引擎的原理。

我们在使用搜索引擎查询时,搜索引擎会返回给用户一个查询的结果页,这个页面时在数亿的结果中给你答案的过程。

这些页面从何得来呢?

引擎是一个软件,运行在数据集合上的程序,他两个基础的部件:1、获取数据的部件 2、数据分析的部件

第一部分,数据获取是解决海量网页的抓取问题
解决这个问题依靠的是 技术+策略,我们知道再好技术也会有瓶颈,他需要依靠一定的算法和策略 才能做出我们期待的事情。

因此,引擎对抓取的策略是seo的关键所在。一般的引擎对数据的抓取会采用多种策略的组合以此来降低消耗和提升抓取效率。

这就想你所知道的“定期搜集"、“增量搜集”等这些策略,站在引擎的角度,他要面对的是整个互联网的数据抓取,所以在收集的策略上更加倾向于整体。(注:做seo不要从一个网站的角度来看问题)

在具体搜集过程中,如何抓取一篇篇的网页,也可以有不同的考虑。最常见的一种是所谓“爬取”:将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S(或者说“种子”)开始,沿着网页中的链接,按照先深、先宽、或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。真正的系统其实是多个“蜘蛛”同时在爬。
(注:这点你可以在网站的Log中得到验证)

另外一种方式是在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个url对应的网页不存在了,则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。

还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址(为了宣传自己,通常会有这种积极性),系统在一定时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

如今的搜索引擎已经完善了上述的所有方法,在具体的实践过程中会因不同条件的组合采取不同的策略,即使对相同的站点也可以同时采用不相同的策略。

上一节 [url=http://ryee.iteye.com/blog/1234989]SEO前传 - 解读搜索引擎(采集) 编辑 [/url]
下一节 [url=http://ryee.iteye.com/blog/1246779]解读搜索引擎(预处理)[/url]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+后端代码),Java实现

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值