倒排索引

由来

正向索引: 文档–>单词

如果使用正向索引, 当用户搜索 关键词 A 时, 需要扫描索引库中的所有文档,
找出所有包含 A 的文档, 然后根据打分模型进行打分, 排出名次后 呈现给用户。

这样做,无法满足实时返回结果给用户的 需求。

倒排索引: “关键词” --> 带有此关键词的 文档ID列表

详细

实现 “单词–文档矩阵”的一种具体存储形式。

示例

文档.png

倒排索引库.png

参数解释:
单词ID: 记录每个单词的单词编号
单词: 对应的单词
文档频率: 代表文档集合中有多少个文档包含某个单词
倒排列表:包含单词ID及其他必要信息
DocId:单词出现的文档id
TF:单词在某个文档中出现的次数
POS:单词在文档中出现的位置

举例:
以单词“拉斯”为例,其单词编号为8,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为:{(3;1;<4>),(5;1;<4>)},其含义为在文档3和文档5出现过这个单词,单词频率都为1,单词“拉斯”在两个文档中的出现位置都是4,即文档中第四个单词是“拉斯”。

参考

https://www.cnblogs.com/zlslch/p/6440114.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值