搜索有两个主要阶段:匹配和排名。搜索引擎将二者组合成一个流程以实现一致性。但是这两个在概念上是独立的,我们假设在排名之前已经完成了匹配。
并且一个搜索引擎的生死由其排名的质量决定。
还是老规则,问题三部曲。是什么?为什么?怎么办?
首先来回答一下是什么?
什么是匹配?
假设我现在搜索的是“伦敦公共汽车时刻表”,那么匹配就是搜索整个互联网中包含该字段的网页。匹配阶段也就是回答了“哪个网页与我的查询匹配”。
具体实例见下图:
其次说说为什么匹配?
为一个给出的查询高效地找出所有命中问题。
最后说说怎么匹配?
在说到怎么匹配之前,先来了解一下,什么是索引?
“索引”这个词通常指参考书的最后一个版块。你可能查找所要的概念以固定顺序(通常按字母排序)排列,每一个概念下都列出的具体出现的位置(通常以页码形式出现)。
就像是“cat 124, 523”的索引项。意味着“cat”这个词在第124,页和第523页中出现过。
下面给出三张图,假设这三张图片就是互联网上的三个网页。
1.2.3.