第
6
章
Internet
信息检索工具
——搜索引擎
6.1
搜索引擎的基本概念
Internet
是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的。如何
快速准确地在网上找到需要的信息已变得越来越重要。搜索引擎(
Search Engine
)是一种
网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息。
1.
搜索引擎的定义
搜索引擎是一种能够通过
Internet
接受用户的查询指令,并向用户提供符合其查询要
求的信息资源网址的系统。它是一些在
Web
中主动搜索信息(网页上的单词和特定的描
述内容)并将其自动索引的
Web
网站,其索引内容存储在可供检索的大型数据库中,建
立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网
页的前二百至五百个单词。当用户输入关键词(
Keyword
)查询时,该搜索引擎会告诉用
户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软
件又是提供查询、检索的网站。所以,搜索引擎也可称为
Internet
上具有检索功能的网
页。
搜索引擎也是目前
Internet
对信息资源进行组织的主要方式
。搜索引擎由网上机器人
(Spider
或
Robot)
自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索
引
。由于不需要人们的介入
,速度得以大大的提高。其覆盖面和及时性也得以大大的提
高
。
Spider
或
Robot
是一种软件,它沿着
WWW
文件的链接在网上漫游,记录
RUL
、文
件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关
键词和
RUL
、文件的大小、语种以及词出现的频率。它的运行方式为
:从一个或一组
RUL
开始,访问该
RUL
所指
HTML
文件中所有的
RUL
锚链,然后再以这些新的
RUL
为
起始点,继续进行本地索引,直到再也没有满足条件的新的
RUL
为止。在记录新的
RUL
时,可以进行分析和判断,从中去掉不需要或不想要的
RUL
,这不但提高了本地索引的
速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将
HTML
格式文件取到本
地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分
(
如
关键字和一些指定词等
)
存储到数据库中,形成本地查询数据库,以后再查时就不必到远
地去重新获取
HTML
格式文件了
。搜索引擎的数据检索方式主要是关键字的匹配方式
:
如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等
。能为用户提供全文索引、
约束性检索、基于布尔关系的查询方式
,并对查询结果根据某种算法和规则评分和排
序。引擎系统虽然能在
WWW
信息资源范围内自动发现新的信息
,对其所覆盖的资料进
行自动更新
,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理
,自动