搜索引擎工作过程

最新推荐文章于 2024-05-25 04:45:00 发布

pengzhisen123

最新推荐文章于 2024-05-25 04:45:00 发布

阅读量5.4k

点赞数 2

第一步爬行和抓取

1）搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也叫机器人（bot）。蜘蛛其实就是搜索引擎的手下，搜索引擎命令它到互联网上浏览网页，从而得到互联网的所有数据，然后把这些数据存到搜索引擎自己的数据库中。我们网站中不能有死链接。必须要让蜘蛛在网站网站里面畅通无阻的抓取页面。

2）蜘蛛爬行的方法

不管是哪个级别的蜘蛛爬行的方法都是一样的，一共分为两种：1、深度优先；2、宽度优先。蜘蛛都是顺着锚文本往下爬，直到最后，所以这里就体现了网站内部链接的重要性。

①、深度优先。

深度优先就是指蜘蛛到达一个页面后，发现一个锚文本链接，就是爬进去另个一页面，然后又在另一个页面发现另一个锚文本链接，接着往里面爬，直到最后爬完这个网站。

②、宽度优先。

宽度优先就是蜘蛛到达一个页面后，发现锚文本不是直接进去，而是把整个页面所有都爬行完毕，再一起进入所有锚文本的另一个页面，直到整个网站爬行完毕。

3）搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢，主要指标有四个：

a、网站更新频率：更新快多来，更新慢少来，直接影响蜘蛛的来访频率

b、网站更新质量：更新频率提高了，仅仅是吸引了蜘蛛的注意，蜘蛛对质量是有严格要求的，如果网站每天更新出的大量内容都被蜘蛛判定为低质页面，依然没有意义。

c、连通度：网站应该安全稳定、对Baiduspider保持畅通，经常给蜘蛛吃闭门羹可不是好事情

d、站点评价：百度搜索引擎对每个站点都会有一个评价，且这个评价会根据站点情况不断变化，是百度搜索引擎对站点的一个基础打分（绝非外界所说的百度权重），是百度内部一个非常机密的数据。站点评级从不独立使用，会配合其它因子和阈值一起共同影响对网站的抓取和排序。

第二步数据库处理

搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引库和索引。其他还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。其中有，网站数据库，就是动态网站存放网站数据的空间。索引数据库，索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。简单的来说，就是把【抓取】的网页放进数据库。

第三步分析检索服务

用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。
用户检索的过程是对前两个过程的检验，检验该搜索引擎能否给出最准确、最广泛的信息，检验该搜索引擎能否迅速地给出用户最想得到的信息。

第四步排名

把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括：

相关性：网页内容与用户检索需求的匹配程度，比如网页包含的用户检查关键词的个数，以及这些关键词出现的位置；外部网页指向该页面所用的锚文本等

权威性：用户喜欢有一定权威性网站提供的内容，相应的，百度搜索引擎也更相信优质权威站点提供的内容。

时效性：时效性结果指的是新出现的网页，且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。

重要性：网页内容与用户检查需求匹配的重要程度或受欢迎程度

丰富度：丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富，可以完全满足用户需求；不仅可以满足用户单一需求，还可以满足用户的延展需求。

受欢迎程度：指该网页是不是受欢迎。

搜索引擎经过搜索词处理，文件匹配，相关性计算，过滤调整，排名显示等经过复杂的工作步骤完成最终排名。

pengzhisen123

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎工作过程

第一步爬行和抓取1）搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也叫机器人（bot）。蜘蛛其实就是搜索引擎的手下，搜索引擎命令它到互联网上浏览网页，从而得到互联网的所有数据，然后把这些数据存到搜索引擎自己的数据库中。我们网站中不能有死链接。必须要让蜘蛛在网站网站里面畅通无阻的抓取页面。2）蜘蛛爬行的方法不管是哪个级别的蜘蛛爬行的方法都是一样的，一共分为两种：1、深...
复制链接

扫一扫