一、索引的建立分为三种方式:
1.两遍文档倒排法
第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等
第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行
2.排序倒排法
步骤为:
排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。
3.归并倒排法
二、索引更新
1.完全重建策略
2.再合并策略
3.原地更新策略
4.混合策略
一、索引的建立分为三种方式:
1.两遍文档倒排法
第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等
第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行
2.排序倒排法
步骤为:
排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。
3.归并倒排法
二、索引更新
1.完全重建策略
2.再合并策略
3.原地更新策略
4.混合策略