Elasticsearch系列---倒排索引原理与分词器

概要

本篇主要讲解倒排索引的基本原理以及ES常用的几种分词器介绍。

倒排索引的建立过程

倒排索引是搜索引擎中常见的索引方法,用来存储在全文搜索下某个单词在一个文档中存储位置的映射。通过倒排索引,我们输入一个关键词,可以非常快地获取包含这个关键词的文档列表。

我们先看英文的,假设我们有两个文档:

  1. I have a friend who loves smile
  2. love me, I love you

为了建立倒排索引,我们先按最简单的用空格把每个单词分开,可以得到如下结果:*表示该列文档中有这个词条,为空表示没有该词条

Term
doc1 doc2
I *
*
have *

a *

friend *

who *

loves *

smile *

love
*
me
*
you
*

如果我们要搜索 I love you,我们只需要查找包含每个词条的文档:

Term
doc1 doc2
I *
*
love
*
you
*

两个文档都能匹配上,如果按命中词条数量来算,doc2比doc1更匹配。

这个是倒排索引最简化的表达方式࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值