网络搜索引擎原理简介 [转]

最新推荐文章于 2023-01-06 22:27:23 发布

husn

最新推荐文章于 2023-01-06 22:27:23 发布

阅读量1.4k

点赞数

分类专栏：搜索引擎研究文章标签：搜索引擎网络数据库 google internet web

搜索引擎研究专栏收录该内容

36 篇文章 1 订阅

订阅专栏

据中国互联网络信息中心统计，目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广，正成为计算机工业界和学术界争相研究和开发的对象。

搜索引擎虽然品种繁多、功能不一，但是它们的总体结构和基本的工作原理都是一样的。

每个搜索引擎都有三个部分组成： (1)在Internet上采集信息的"机器人"；(2)对采集到的信息进行索引并建立索引库的索引器；(3)完成用户提交查询请求的网页检索器。
图1.1 搜索引擎总体结构图
1、"机器人"
　　"机器人"实际上是一些基于Web的程序，通过请求Web站点上的HTML网页来对采集该HTML网页，它遍历指定范围内的整个Web空间，不断从一个网页转到另一个网页，从一个站点移动到另一个站点，将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页，都要搜索它内部的所有链接，所以从理论上讲，如果为"机器人"建立一个适当的初始网页集，从这个初始网页集出发，遍历所有的链接，"机器人"将能够采集到整个Web空间的网页。
2、索引器
　　索引器负责将"机器人"在Web空间采集到的信息建立索引并存放在索引数据库中，索引数据库可以采用通用的大型数据库，如ORACLE、Sybase等，也可以自己定义文件格式进行存放。为了保证索引数据库信息与Web内容的同步，索引数据库必须定时更新，更新频率决定了搜索结果的及时性，索引数据库更新是通过启动"机器人"对Web空间重新搜索来实现的。
3、网页检索器
　　当用户使用搜索引擎查找信息时，网页检索器接收用户提交的查询条件，并完成对用户查询请求的响应。网页检索器是一个在Web服务器上运行的CGI程序，它首先接收用户提交的查询条件，根据查询条件对索引库进行查找并将查询到的结果返回给用户。
　　有的系统在返回结果之前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询之前已经计算了各个网页的网页等级（Page Rank），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。典型的如大名鼎鼎的Google(http://www.google.com)就是采取这种策略，它的PageRank方法还获得国际专利，因为PageRank的客观性，从而使得由它搜索出来的结果比较公正，不会因为哪家公司使用伎俩，而导致它的网页排在结果的前边，而是根据计算出来的等级值，排在相应的位置。
　　国内目前做得最为出色的应该首推百度(www.baidu.com)，在中文信息搜索方面，其速度不亚于google，虽然其信息覆盖没有达到google那样的规模。(注：google最早由美国斯坦福大学计算机科学系的几名博士生研制出来，目前的信息量约20亿7千万个Web页面，支持世界上大多数流行语言，在这方面，百度颇有不及)。