1.倒排索引
1.1 数据结构直达链接
- 倒排表(posting list)
包含某个词项的所有id的数据存储了在.doc文件中 - 词项字典(Term Dictionary)
包含了index field的所有经过normalization token filters处理之后的词项数据,最终存储在.tim文件中。
所谓normalization其实是一个如去重、时态统一、大小写统一、近义词处理等类似的相关操作。 - 词项索引(Term Index)
词项索引就是为了加速词项字典检索的一种数据结构,落地文件为.tip。.tip文件和.tim文件的数据结构
.tip文件和.tim文件的数据结构如下图所示:
1.2 压缩算法 链接
1.2.1 FOR
> FOR算法的核心思想是用减法来削减数值大小,从而达到降低空间存储。
1.2.2 RBM
RBM的核心就是通过除法来缩减数值大小,但是并不是直接的相除。