1. 搜索引擎简介
搜索引擎顾名思义就是:从千万设置亿、兆级别的数据中查询出自己想要的信息,比如:谷歌和百度
索引引擎最重要的是建立倒排索引和正排索引【不是必须的】
2. 倒排索引简介
-
倒排索引的名词解释
- 单词【key】:搜索框中输入的关键词
- 文档【doc】:搜索结果的基本信息,比如百度这样的搜索引擎,doc是一个一个带有特定信息【关键词,出现的次数,出现的位置.....】的网页;
如果是淘宝的搜索引擎,doc 就是一个一个包含特定信息【宝贝的id、宝贝的类目.......】的宝贝;当然key和doc 要有一定的相关性,这个是算法来计算的
- 倒排索引项:每个doc 包含一些特定信息,就叫倒排索引项
- 词典项:把我们搜索的单词叫词典项
- 倒排索引表:肯定会有多个doc 包括一个单词,这样一个词典项+ 包括这个词典项的所有doc 构成 倒排列表
- 倒排索引:数亿万级的倒排索引表构成倒排索引
- 一般为了减少索引的数量和搜索的时间,在一个搜索引擎中往往按照不同的纬度分成多份倒排索引
下面是倒排索引的机构图: