信息检索——词项词典及倒排记录表

词项词典及倒排记录表

 

本章内容

收集词项词典的预处理

  1. 收集文档
  2. 词条化
  3. 应该把哪些词放入索引?

倒排记录表

  1. 快速处理:跳表
  2. 含位置信息的倒排记录表和短语查询

 

 

 

 

分析文档

  1. 需要处理每一个文档的格式及语言
  2. 格式:PDF/excel/word/HTML...
  3. 语言
  4. 字符集:utf-8/gbk/gb2312....

 

索引粒度

可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。

  • 索引粒度太小,正确率高  召回率低
  • 索引粒度太大,召回率高  正确率低

 

 

 

词条与词项

词条:从原文 中切出来的,一模一样

词项:词条经过若干处理,再进行同义词归类后成为了词项

 

词条预处理

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NoTqqa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值