解读搜索引擎(预处理)

上回说到采集其实采集过程也很复杂 想了解更多的细节可参见相关的资源。

我们通过搜索结果页可以看到展现的内容包括查询内容和超链接;
因此采集过程主要处理两部分Url 和 文本;

搜索引擎通过爬虫程序(robot/spider)来遍历互联网各个节点,在遍历的过程中会处理已经遍历和尚未遍历的url,以及攫取网站的文本内容。并存储在搜索数据库中。

所谓的预处理过程,恰恰就是完成这些操作。


用户在搜索框查询一个关键词的过程非常短暂,如果在查询时再去遍历整个网络寻找匹配的网页信息,搜索引擎无疑是杯水车薪。因此他有一套完整的预处理过程来保证快速、准确地反馈出用户查询的结果。

这就是我们能够看到百度快照和谷歌快照的原因。

查询请求反馈机制是索引机制,比如图书馆的数目索引。

搜索引擎在数据前端做索引查询,用户的查询是在索引数据库完成的。

结果页是经过计算得出,整个计算过程是极其复杂的。涉及到排序因子的原则和权重调控。搜索引擎的核心算法就是通过这里来发挥做用的。

做搜索引擎优化不可能了解到这些核心算法和排序因子的权重,但我们可以通过实践总结和摸索出那些因素的权重影响较大,正如你所知道的title就是其中之一。

以上是预处理的解读。


上一节:[url=http://ryee.iteye.com/blog/1234989]SEO前传 - 解读搜索引擎(采集)[/url]
下一节:[url=http://ryee.iteye.com/blog/1270903]搜索引擎优化入门:前端性能优化[/url]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值