搜索引擎工作过程

第一步 爬行和抓取

1)搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。蜘蛛其实就是搜索引擎的手下,搜索引擎命令它到互联网上浏览网页,从而得到互联网的所有数据,然后把这些数据存到搜索引擎自己的数据库中。我们网站中不能有死链接。必须要让蜘蛛在网站网站里面畅通无阻的抓取页面。

2)蜘蛛爬行的方法

不管是哪个级别的蜘蛛爬行的方法都是一样的,一共分为两种:1、深度优先;2、宽度优先。蜘蛛都是顺着锚文本往下爬,直到最后,所以这里就体现了网站内部链接的重要性。

①、深度优先。

深度优先就是指蜘蛛到达一个页面后,发现一个锚文本链接,就是爬进去另个一页面,然后又在另一个页面发现另一个锚文本链接,接着往里面爬,直到最后爬完这个网站。

②、宽度优先。

宽度优先就是蜘蛛到达一个页面后,发现锚文本不是直接进去,而是把整个页面所有都爬行完毕,再一起进入所有锚文本的另一个页面,直到整个网站爬行完毕。

3)搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢,主要指标有四个:

a、 网站更新频率:更新快多来,更新慢少来,直接影响蜘蛛的来访频率

b、网站更新质量:更新频率提高了,仅仅是吸引了蜘蛛的注意,蜘蛛对质量是有严格要求的,如果网站每天更新出的大量内容都被蜘蛛判定为低质页面,依然没有意义。

c、连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给蜘蛛吃闭门羹可不是好事情

d、站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。

第二步 数据库处理

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。其中有,网站数据库,就是动态网站存放网站数据的空间。索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。简单的来说,就是把【抓取】的网页放进数据库。

第三步 分析检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。

第四步 排名

把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:

相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等

权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。

时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。

重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度

丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。

 

受欢迎程度:指该网页是不是受欢迎。

搜索引擎经过搜索词处理,文件匹配,相关性计算,过滤调整,排名显示等经过复杂的工作步骤完成最终排名。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值