网络搜索引擎简介
一、传统信息检索回顾
传统信息检索文档集的搜索有三种基本的计算机辅助技术:布尔模型、向量空间模型和概率模型。这些模型发展与20世纪60年代,直到2000年6月,便存在3500种不同的搜索引擎技术,并且大多数搜索引擎仍然依赖于以上三种基本模型的一种或数种。下图摘自《搜索引擎-原理技术与系统》,显示了搜索的主干流程。
1.1 布尔搜索引擎
信息检索中最早而且最简单的检索方法之一。布尔逻辑检索也称作布尔逻辑搜索,严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。
1.2向量空间模型搜索引擎
向量空间模型将文本数据变换为数值向量和矩阵,然后使用矩阵分析方法来发现文档集中的关键特征和联系。某些高级向量空间模型,如LSI(Latent Semantic Indexing,隐性语义索引)等能访问文档集中隐含的语义结构,如搜索car,能返回automobile相关文档。
该模型还有另外两个优点是相关性评分和相关性反馈。缺点是计算开销大,查询时必须计算每个文档和查询之间的距离度量,因而也伴随着另一个缺点——向量空间模型无法很好地扩展。
1.3概率模型搜索引擎
用户给定一个查询请求,概率检索模型根据文档与用户请求的相关性排序文档,给出结果,举个简单的例子,对于信息检索的文档,