倒排索引的简单介绍

前言

在学习 ES 的过程中,简单的介绍下倒排索引是怎么回事,对倒排索引有一个宏观的感受。

正排索引

在讲述倒排索引之前先介绍下正排索引。正排索引就是如下表形式:

文档id文档内容
1什么是正排索引
2什么是倒排索引
3正排索引和倒排索引

倒排索引

倒排索引就是对上表进行转换,最简单的倒排索引如下表所示:

单词文档ids
什么1,2
1,2
正排1,3
倒排2,3
索引1,2,3
3

词频(TF)和位置(POS)

上表所示的倒排索引之所以是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词。实用的倒排索引还可以记载更多的信息,如下表第3列的词频位置

TF:单词在某个文档中出现的次数
POS:单词在文档中出现的位置

单词文档ids文档id:词频TF:<位置POS>
什么1,21:1:<1>,2:1:<1>
1,21:1:<2>,2:1:<2>
正排1,31:1:<3>,3:1:<0>
倒排2,32:1:<3>,3:1:<5>
索引1,2,31:1:<5>,2:1:<5>,3:2:<2,7>
33:1:<4>

以“索引”这个单词为例,“3:2:<2,7>”:表示在文档id是3的文档中出现2次,在文档中的位置分别是2和7。

参考资源

https://www.cnblogs.com/ottll/p/9470732.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值