elasticsearch学习4--倒排索引与分词

最新推荐文章于 2023-06-22 23:30:00 发布

Cape_sir

最新推荐文章于 2023-06-22 23:30:00 发布

阅读量113

点赞数

分类专栏： elasticsearch学习文章标签： es elasticsearch 正排索引

本文链接：https://blog.csdn.net/weixin_42652596/article/details/109580015

版权

elasticsearch学习专栏收录该内容

15 篇文章 4 订阅

订阅专栏

一、倒排索引

1.正向索引

ID	作者	文章标题	文章内容
1	Cape1	es索引	努力学习倒排索引
2	Cape2	mysql索引	学习普通索引

以上述内容为例，构建id正向索引和文章标题正向索引

索引	文章内容
1	努力学习倒排索引
2	学习普通索引
es索引	努力学习倒排索引
mysql索引	学习普通索引

当我们知道文章id或者文章题目的时候，可以很容易的检索到文章的内容。但是，如果我们只知道文章中的某个关键词，例如需要检索到与“倒排索引”有关的文章时，就只能对文章内容进行全文检索了。当文章内容很大，数据量很多的时候就没有办法保证效率了。对于这类需求，关系型数据库的索引就不太合适了，最好使用基于倒排索引的数据库。

2.倒排索引

同样以上述内容为例构建倒排索引

Token	ID为1 的文章	ID为2的文章
努力	√
学习	√	√
倒排	√
普通		√
索引	√	√

上表倒排序索引包含两个部分：

单词词典：记录所有文档单词，记录单词到倒排列表的关联关系
倒排列表：记录单词与对应文档结合，由倒排索引项组成

每个Token为一个倒排索引项，包含以下4个内容

文档：Doc Id - 包含此Token的文档id
词频：TF - 单词在文档中出现的次数，用于相关性评分
位置：Position - 单词在文档中分词的位置，用于phrase query
偏移：Offset - 记录单词开始结束的位置，实现高亮显示

例如

单词	Doc Id	TF	Position	Offset
学习	1	1	1	<2,4>
学习	2	1	0	<0,2>

二、Analysis 分词

Analysis：即文本分析，是把全文本转化为一系列单词（term/token）的过程，也叫分词；在Elasticsearch中可通过分词器（Analyzer）实现分词，分词器可以是内置的也可以是定制分词器。

Analyzer 分词过程简介

1）字符过滤器 character filter
首先，字符串按顺序通过每个字符过滤器。他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML，或者将 & 转化成 and。

2）分词器 tokenizer
其次，字符串被分词器分为单个的词条。一个 whitespace的分词器遇到空格和标点的时候，可能会将文本拆分成词条。

3）令牌过滤器token filter
最后，词条按顺序通过每个 token 过滤器。这个过程可能会改变词条，例如，lowercase token filter 小写化（将ES转为es）、stop token filter 删除词条（例如，像 a， and， the 等无用词），或者synonym token filter 增加词条（例如，像 jump 和 leap 这种同义词）。

Cape_sir

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch学习4--倒排索引与分词

一、倒排索引1.正向索引ID作者文章标题文章内容1Cape1es索引努力学习倒排索引2Cape2mysql索引学习普通索引以上述内容为例，构建id正向索引和文章标题正向索引索引文章内容1努力学习倒排索引2学习普通索引es索引努力学习倒排索引mysql索引学习普通索引当我们知道文章id或者文章题目的时候，可以很容易的检索到文章的内容。但是，如果我们只知道文章中的某个关键词，例如需要检索到与“倒排索引”有关
复制链接

扫一扫