词项词典及倒排记录表
本章内容
收集词项词典的预处理
- 收集文档
- 词条化
- 应该把哪些词放入索引?
倒排记录表
- 快速处理:跳表
- 含位置信息的倒排记录表和短语查询
分析文档
- 需要处理每一个文档的格式及语言
- 格式:PDF/excel/word/HTML...
- 语言
- 字符集:utf-8/gbk/gb2312....
索引粒度
可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。
- 索引粒度太小,正确率高 召回率低
- 索引粒度太大,召回率高 正确率低
词条与词项
词条:从原文 中切出来的,一模一样
词项:词条经过若干处理,再进行同义词归类后成为了词项
词条预处理