- 博客(1)
- 收藏
- 关注
转载 索引的建立 更新策略
一、索引的建立分为三种方式: 1.两遍文档倒排法 第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等 第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行 2.排序倒排法 步骤为: 排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。 3.归并倒排法 二、索引更新 1.完
2014-05-05 15:53:12 238
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人