正向索引:以词为单位,记录每个关键词的词频、格式、位置等权重信息,把页面转换为一个关键词组成的集合。
正向索引不能直接用于排名,排名程序需要扫描所有索引库中的文件,找出包含关键词的文件,
再进行相关性计算,这样的计算量无法满足实时返回排名结果的要求。
正向索引举例:
文档号 关键字 位置
1 中国 3
1 经济 4
2 科技 2
倒排索引:把文件对应到关键词的映射转换为关键词到文件的映射。
关键词是主键,每个关键词都对应着一系列文件,只需要查询关键字就可以找到对应的文章,这样不需要进行全文扫描,
这样就大大提高了速度,也提升了服务器性。倒排序索引利于查找但不利于构建,特别不利于删除。
倒排序索引举例:
关键字 文章号及词频 位置
中国 (1,1) (3)
经济 (1,2),(2,3) (4,5),(6,8,9)
科技 (2,1) (2)