ElasticSearch 倒排索引

@SmartSi

已于 2022-11-05 14:45:45 修改

阅读量2.9k

点赞数

分类专栏： Elasticsearch 文章标签： ElasticSearch 倒排索引 inverted index

于 2016-10-19 11:38:39 首次发布

原文链接：https://www.elastic.co/guide/en/elasticsearch/guide/current/inverted-index.html

版权

Elasticsearch 专栏收录该内容

31 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Elasticsearch利用倒排索引实现快速全文搜索。倒排索引包含文档中的词项及其所在文档。然而，原始索引存在大小写、同根词和同义词匹配问题。为解决这些问题，需要对词项进行标准化处理，如转小写、词根化和同义词映射。分词分析是这一过程的关键，它确保查询和索引的词项能有效匹配，提高搜索精度。

摘要由CSDN通过智能技术生成

Elasticsearch 使用一种叫做倒排索引的结构来做快速的全文搜索。倒排索引由在文档中出现的单词列表，以及每个单词所在的文档组成。例如，我们有两个文档，每个文档都有一个 content 字段，内容如下：

# 文档1
The quick brown fox jumped over the lazy dog
# 文档2
Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先切分每个文档的content字段为单独的单词（我们把它们叫做词项（terms）或者词条（tokens）），把所有的唯一词项terms放入列表中并排序，并列出每个词项出现在哪些文档中，结果是这个样子的：

现在，如果我们想搜索"quick brown"，我们只需要找到每个词在哪个文档中出现即可：

两个文档都匹配，但是第

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@SmartSi

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

ElasticSearch倒排索引原理与代码实例讲解

AI架构设计之禅

06-13

834

ElasticSearch倒排索引原理与代码实例讲解 1.背景介绍 ElasticSearch 是一个基于 Lucene 的开源搜索引擎，广泛应用于全文搜索、日志分析、实时数据处理等领域。其核心技术之一是倒排索引（Inverted Index），这使得 ElasticSe

Elasticsearch 倒排索引原理

weixin_42767757的博客

12-03

2121

Elasticsearch 倒排索引原理 倒排索引也是索引的一种。索引，本质上就是为了快速检索我们存储的数据。每种数据库都有自己要解决的问题（或者说擅长的领域），对应的就有自己的数据结构，而不同的使用场景和数据结构，需要用不同的索引，才能起到最大化加快查询的目的。对于 MySQL 来说，使用 B+ tree 索引是为了优化已有数据的存储结构，对于不需要快速更新的时候，采用预先排序等方式换取更小的存储空间，更快的检索速度，但同时，由于每次更新都需要对 B+ 树进行调整，导致更新比较慢。Elasticsea

参与评论您还未登录，请先登录后发表或查看评论

Elasticsearch中的倒排索引和读写操作原理解析

weixin_43230682的博客

07-20

905

目录前言一、倒排索引 二、Elasticsearch中的基本概念三、写操作原理四、读操作原理前言在实际的生产环境中，起初启用Elasticsearch（下称ES）是为了解决模糊查询的问题。具体业务场景为大量抓取回来的短视频内容、热门微博、公众号文章、小红书笔记、信息流新闻文章等，需要支持用户模糊查找，而随着每日新增的内容越来越多，这些信息已经积累到单个媒体数千万近亿的数量，因此依靠MySQL的模糊查询是无法满足性能上的要求，考虑引入对应的搜索引擎来解决，于是就将数据的特定字段迁移至

Elasticsearch简单介绍

最新发布

qq_41938541的博客

08-22

2201

SQL 适用于需要强一致性和复杂关系查询的场景，比如财务系统、事务型数据库。Elasticsearch 更适合大规模实时搜索、日志分析、全文检索等应用场景，具有高扩展性和近实时搜索能力。这两者可以互补使用，SQL 处理结构化数据，ES 提供搜索和分析。

Elasticsearch 倒排索引

2012年开始工作，全栈开发老兵，目前已是一个老师，分享这么多年的心得体会

12-23

4589

本篇文章主要是介绍Elasticsearch的自动补全功能，以及提供一个小案例给大家。

ElasticSearch倒排索引

Saintyyu的博客

11-14

798

一、倒排索引 倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。以文档为例，通过文档id索引文档中出现的单词叫正排索引，而通过单词反向索引包含该单词的文档叫做倒排索引。 倒排索引的样子： Term（单词）：一段文本经过分析器分析以后就会输出一串单词，这一个一个的就叫做Ter...

Elasticsearch倒排索引

j_ychen的博客

05-10

463

倒排索引前言一、倒排索引的内部结构1.Term index2.Term Dictionary字典数据结构3.与mysql对比二、FST（Finite State Transducer）总结前言 Elasticsearch 使用一种称为 倒排索引 的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。在搜索引擎中，每个文档都有一个对应的文档 ID，文档内容被表示为一系列关键词的集合。例如，文档 1 经过分词，提取了 20 个关键词，每个关键词都

【ElasticSearch】ElasticSearch的倒排索引

技术随笔

06-25

4470

ElasticSearch是一个基于Apache Lucene构建的开源搜索引擎，它提供了强大的全文搜索和分析功能。它不仅可以快速搜索和检索大量的结构化和非结构化数据，还具备水平扩展和高可用性的特性。

Elasticsearch倒排索引结构

woaitingting1985的博客

01-28

438

一切设计都是为了提高搜索的性能 倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。先来回忆一下我们是怎么插入一条索引记录的： curl -X PUT "localhost:9200/user/_doc/1" -H 'Content-Type: application/json' -d' { "name" : "Jack", "gender" : 1, "ag.

Elasticsearch倒排索引详解

qq_50604294的博客

06-28

1451

1. 倒排索引常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。2. 倒排索引 VS正排索引特性正排索引（Forward Index）倒排索引（Inverted Index）存储内容文档到词的映射关系词到文档的映射关系存储结构每个文档记录包含的所有词每个词记录包含它出现的所有文档 ID查询效率。

Elasticsearch - 倒排索引

qq_39679639的博客

12-05

1273

在上一篇笔记Elasticsearch基础和原理中介绍了Elasticsearch的一些基本概念和原理，我们知道Elasticsearch是基于Json格式存储，每一个文档可以理解成一个json对象。这看起来和MySQL(InnoDB)完全不同的存储方式，是如何做到近乎实时检索的呢？这篇笔记就来学习一下倒排索引 简单的倒排索引示例假如我们在ES中存在这样三条记录： { "_id": 1, "log": "Oscar is fourteen years old", } { "_id": 2, "l

elasticsearch-倒排索引

重点在于记录

12-26

346

学习思路名词概念解释举个小栗子一、名词解释正向索引：我们熟悉的数据库索引，通过索引值（key）找到对应的数据（value）反向索引（倒排索引）：value一般是一个文档（字符相对较长），通过分词得到多个词语，然后给每个词语建立正向索引都指向value；通过分词后的任意一个词都能查到value（实际中一般不是直接对应value，而是对应value的唯一标识，然后通过唯一标识查val...

Elasticsearch-倒排索引

weixin_64387654的博客

07-08

1023

单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图1展示了其含义。下图的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。从纵向即文档这个维度来看，每列代表文档包含了哪些单词，比如文档1包含了词汇1和词汇4，而不包含其它单词。从横向即单词这个维度来看，每行代表了哪些文档包含了某个单词。比如对于词汇1来说，文档1和文档4中出现过单词1，而其它文档不包含词汇1。矩阵中其它的行列也可作此种解读。搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。

elasticsearch倒排索引

xusheng__zhang的博客

02-28

852

先简单介绍一下ElasticSearch。ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。我们建立一个网站或应用程序，并...

ElasticSearch之倒排索引

wang0907的博客

02-06

2152

分词：analysis，即将一句话分为多个词（term）的过程。分词器：analyzer，完成分词这个操作的工具。如下图：所以，分词是个动词，分词器是个名词。分词器在我们写入数据构建倒排索引的时候会用到，在输入一句话进行搜索的时候也会用到。https://blog.csdn.net/weixin_28906733/article/details/106610972 如果希望自定义一个与standard类似的analyzer,只需要在原定义自定义一个与standard类似的analyzer。