ES索引的理解

最新推荐文章于 2024-08-15 08:52:13 发布

阿狸轰

最新推荐文章于 2024-08-15 08:52:13 发布

阅读量1.1k

点赞数 19

分类专栏： java 文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/Alaskan_Husky/article/details/134635951

版权

java 专栏收录该内容

47 篇文章 1 订阅

订阅专栏

本文详细解释了Elasticsearch的索引原理，包括倒排索引的结构、词项化、权重计算，以及分片机制、文档存储与检索、字段数据结构、数据刷新与合并、分布式搜索和映射分析等内容，帮助读者掌握高效使用Elasticsearch的方法。

摘要由CSDN通过智能技术生成

理解Elasticsearch索引的原理涉及到分片、倒排索引、分布式搜索等概念。以下是关于Elasticsearch索引的主要原理：

1.倒排索引（Inverted Index）：

Elasticsearch 使用倒排索引（Inverted Index）来支持高效的全文搜索。倒排索引是一种数据结构，其核心思想是将文档中每个包含的词与包含该词的文档之间建立映射关系。这与传统的正排索引（Forward Index）相反，正排索引是通过文档查找词。

以下是Elasticsearch倒排索引的基本原理：

词项化（Tokenization）： 在索引文档之前，首先需要对文本进行分词。这个过程称为词项化，它将文本划分为一个个词项或术语，这些词项是搜索的基本单位。Elasticsearch提供了各种分析器（Analyzer）来执行词项化。
建立倒排列表（Inverted List）： 对于每个词项，Elasticsearch建立一个倒排列表，记录了包含该词项的所有文档的位置。倒排列表的数据结构类似于字典，每个词项都映射到一个包含该词项的文档列表。
文档ID映射： 在倒排列表中，不仅包含了文档的位置信息，还记录了文档的ID。这使得在执行搜索时，可以快速地定位包含搜索词的文档。
权重和评分： 在倒排列表中，可以存储额外的信息，如词项在文档中的频率、位置等。这些信息用于计算文档的得分，从而在搜索结果中对相关性进行排名。
合并和压缩： 由于文档的更新、删除等操作，倒排列表可能会变得很大。Elasticsearch会定期执行合并和压缩操作，以减小索引的存储空间，提高查询性能。
多字段和多词项查询： 倒排索引支持复杂的查询，包括多个字段和多个词项的组合查询。通过使用逻辑运算符和模糊匹配等功能，可以实现更灵活的搜索。
近实时搜索： Elasticsearch支持近实时搜索，即文档被索引后几乎立即就可以进行搜索。这是通过将文档首先存储在内存中，并定期刷新到磁盘来实现的。
分布式搜索： 在分布式环境中，倒排索引的查询涉及到多个节点上的多个分片。协调节点负责协调分片上的查询结果，并将最终结果返回给用户。

2.分片（Sharding）：

Elasticsearch 的分片机制是其分布式存储和搜索能力的关键。以下是 Elasticsearch 分片原理的核心概念：

分片（Shard）： Elasticsearch 将每个索引划分为多个分片。分片是独立的、自包含的索引单元。每个分片本质上是一个完整的索引，拥有自己的倒排索引、文档、映射和设置。
主分片（Primary Shard）： 当你创建索引时，需要指定主分片的数量。主分片负责存储索引的一部分数据，处理索引的所有写入和查询操作。主分片的数量在索引创建后不能更改。
副本分片（Replica Shard）： 为了提高索引的可靠性和读取性能，每个主分片都可以有零个或多个副本分片。副本分片是主分片的拷贝，它们位于不同的节点上。副本分片不处理写入操作，但可以处理读取请求，从而提高读取性能和冗余性。
分片的路由（Shard Routing）： 文档被索引时，Elasticsearch 使用分片路由机制将文档定位到相应的主分片。默认情况下，路由是通过文档的 ID 进行计算的，确保相似的文档存储在相同的分片上。
分片的均衡和迁移： Elasticsearch 动态地调整主分片和副本分片的分布，以实现均衡的负载和防止单点故障。当新的节点加入集群或节点离开时，分片的迁移和重新分配是自动进行的。
分片的水平扩展： 分片机制使得 Elasticsearch 具有很好的水平扩展性。通过增加节点，可以增加索引的主分片数量，从而实现数据的水平分割和存储。
分片的搜索过程： 当执行搜索请求时，搜索会分布到所有相关的主分片和副本分片上。协调节点（coordinating node）负责协调搜索请求和合并结果。这使得搜索操作能够并行执行，提高搜索性能。
分片的故障恢复： 当节点发生故障或副本分片丢失时，Elasticsearch 会自动从其他副本中恢复丢失的数据。这确保了集群的可靠性和数据的完整性。

通过这些机制，Elasticsearch 能够实现在大规模、分布式的环境中高效地存储和检索数据。分片技术使得 Elasticsearch 具有横向扩展的能力，使其适用于处理大量数据和高并发请求的场景。

3.文档存储和检索：

Elasticsearch 的文档存储和检索是其核心功能之一，以下是关于这方面的基本原理：

文档（Document）： 在 Elasticsearch 中，文档是 JSON 格式的数据单元。一个文档代表了索引中的一条记录。每个文档都有一个唯一的 ID，并且属于特定的索引。
Index API： 通过 Index API，你可以将文档存储到 Elasticsearch 中的指定索引。在存储文档时，Elasticsearch 会自动为文档创建一个倒排索引，以支持后续的全文搜索。

POST /index_name/_doc/1
{
  "field1": "value1",
  "field2": "value2",
  ...
}

Get API： 使用 Get API 可以根据文档的 ID 从索引中检索文档内容。

GET /index_name/_doc/1

更新文档： 使用 Update API 可以更新现有文档。更新操作允许你部分更新文档的字段而不是整体替换文档。

POST /index_name/_update/1
{
  "doc": {
    "field1": "new_value"
  }
}

删除文档： 使用 Delete API 可以从索引中删除文档。

DELETE /index_name/_doc/1

搜索： 通过 Search API 可以执行丰富的搜索操作，包括全文搜索、过滤、聚合等。搜索请求会分布到索引的所有主分片和副本分片上，由协调节点汇总结果。

GET /index_name/_search
{
  "query": {
    "match": {
      "field1": "search_term"
    }
  }
}

复杂查询： Elasticsearch 支持复杂的查询语法，包括布尔查询、范围查询、模糊查询等。可以通过 Query DSL 构建更精细和复杂的查询条件。

GET /index_name/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "field1": "value1" }},
        { "range": { "field2": { "gte": "2022-01-01" }}}
      ],
      "filter": {
        "term": { "field3": "value3" }
      }
    }
  }
}

文档映射（Mapping）： 映射定义了索引中文档的字段和字段的属性。通过映射，你可以指定字段的数据类型、分析器等信息。

PUT /index_name
{
  "mappings": {
    "properties": {
      "field1": { "type": "text" },
      "field2": { "type": "keyword" }
    }
  }
}

文档评分： 在搜索时，Elasticsearch 使用文档评分机制计算每个文档与查询的相关性。评分取决于查询条件、倒排索引中的文档权重等因素。

这些 API 和操作提供了对文档的灵活存储和检索能力，使 Elasticsearch 成为强大的搜索引擎和分布式数据库。理解这些基本原理有助于构建高效的索引和查询策略。

4.字段数据结构：

Elasticsearch 使用不同的字段数据结构来存储和检索不同类型的数据。以下是 Elasticsearch 中一些常见的字段数据结构：

Text Fields（文本字段）： 用于存储长文本或全文搜索的字段。Elasticsearch 使用倒排索引和分析器来处理文本字段。文本字段的数据结构包括倒排索引、词项、位置信息等。

{
  "text_field": "This is a sample text."
}

Keyword Fields（关键字字段）： 用于存储不需要分析的短文本或关键字。关键字字段适用于精确匹配和聚合操作。它们的数据结构类似于一个单独的词项，不包含分析信息。

{
  "keyword_field": "Elasticsearch"
}

Numeric Fields（数值字段）： 用于存储数值类型的字段，如整数、浮点数等。数值字段的数据结构基于倒排索引和紧凑的编码方式。

{
  "numeric_field": 42
}

Date Fields（日期字段）： 用于存储日期和时间信息。日期字段的数据结构类似于数值字段，但可以支持日期范围查询和聚合。

{
  "date_field": "2022-01-01T12:00:00"
}

Boolean Fields（布尔字段）： 用于存储布尔值（true 或 false）。布尔字段的数据结构很简单，通常存储为 0 或 1。

{
  "boolean_field": true
}

Geo-point Fields（地理点字段）： 用于存储地理坐标点信息。地理点字段的数据结构支持地理空间查询和聚合。

{
  "location": {
    "lat": 40.7128,
    "lon": -74.0060
  }
}

Binary Fields（二进制字段）： 用于存储二进制数据，如图像、PDF 文件等。二进制字段的数据结构是原始的二进制流。

{
  "binary_data": "base64_encoded_data"
}

Object Fields（对象字段）： 用于存储嵌套的 JSON 对象。对象字段的数据结构允许嵌套和层次化的数据存储。

{
  "person": {
    "name": "John Doe",
    "age": 30,
    "address": {
      "city": "New York",
      "country": "USA"
    }
  }
}

这些字段数据结构定义了 Elasticsearch 索引中存储的数据类型和组织方式。通过合理选择字段类型，可以优化存储、查询和聚合的性能。

5.数据刷新和合并：

在 Elasticsearch 中，数据刷新（Refresh）和合并（Merge）是两个关键的操作，它们涉及到索引的性能和数据的持久性。以下是关于这两个操作的基本原理：

数据刷新（Refresh）：
- 定义： 刷新是指将内存中的索引数据写入磁盘，使得新索引的文档变化对搜索可见。默认情况下，Elasticsearch 在索引文档时并不立即刷新，而是将文档先存储在内存中，以提高写入性能。
- 触发方式： 刷新操作可以通过显式调用 _refresh API 进行，也可以在索引文档时自动触发。自动触发的频率可以通过索引的 refresh_interval 配置进行设置。
```
POST /index_name/_refresh
```
- 影响性能： 频繁的刷新操作会增加写入的开销，因为每次刷新都涉及到将内存中的变更写入磁盘。因此，需要在写入和搜索之间找到合适的刷新频率，以平衡性能和实时性的需求。
合并（Merge）：
- 定义： 合并是指对磁盘上的索引段（index segment）执行优化操作，以减小存储空间并提高查询性能。合并操作将多个小的索引段合并成一个大的段。
- 触发方式： Elasticsearch 定期执行合并操作，但并不是每次写入都会触发。合并操作的触发条件包括段的数目、段的大小等。
- 影响性能： 合并操作对磁盘和 CPU 有一定的负担，因此需要谨慎使用。合并不是实时操作，可能会导致在合并过程中一段时间内查询性能有所下降。
- 手动触发： 可以通过 _forcemerge API 手动触发合并操作，以立即合并所有索引段。
```
POST /index_name/_forcemerge
```
- 注意事项： 避免频繁手动触发合并，因为过度合并会增加资源消耗。Elasticsearch 在后台会智能地处理合并操作，因此通常不需要频繁手动干预。

6.分布式搜索：

Elasticsearch 是一个分布式搜索引擎，支持在大规模数据集上执行分布式搜索操作。以下是 Elasticsearch 分布式搜索的基本原理：

节点（Nodes）： Elasticsearch 集群由多个节点组成，每个节点是集群中的一个实例。节点可以运行在不同的机器上，它们协同工作以提供分布式搜索和存储功能。
索引分片和副本： 每个索引都被分成多个分片（Shard），这些分片分布在不同的节点上。每个分片都是一个独立的索引，负责存储和处理数据。每个分片还可以有零个或多个副本，这些副本分布在不同的节点上，用于提高可用性和读取性能。
搜索请求的分发： 当执行搜索请求时，请求会被分发到集群中的某个节点上。这个节点被称为协调节点（Coordinating Node）。协调节点负责协调搜索请求，将请求分发给包含相关分片的节点，并将结果汇总返回给客户端。
分片的并行搜索： 协调节点将搜索请求并行发送到包含相关分片的节点上。每个分片独立地执行搜索操作，并返回局部结果。协调节点将这些局部结果汇总、排序并返回给客户端。
分片的本地搜索： 每个分片上执行的搜索是针对本地数据的。这意味着每个节点只需要处理自己负责的分片上的数据，从而分担了搜索负担。
查询的分布式处理： Elasticsearch 使用 Query DSL 来构建复杂的查询条件。查询被分发到相关的分片上，并在各个分片上独立执行。合并结果时，协调节点根据查询条件和相关性评分对结果进行排序。
分片的失败处理： 如果某个分片不可用，Elasticsearch 会自动将请求发送到副本分片上。这有助于保障搜索操作的可用性，即使某个节点或分片发生故障。
分布式聚合： Elasticsearch 不仅支持分布式搜索，还支持分布式聚合操作。聚合请求也会被分发到相关的分片上执行，并在协调节点汇总结果。

通过这些机制，Elasticsearch 提供了高度可扩展的分布式搜索和分布式存储能力，使其适用于大规模数据集和高并发查询的场景。

7.映射和分析：

Elasticsearch 中的映射（Mapping）和分析（Analysis）是两个关键的概念，它们影响了数据的存储和搜索行为。

映射（Mapping）： 映射定义了索引中文档的字段和字段的属性。每个字段都有其数据类型、分析器、索引选项等。映射告诉 Elasticsearch 如何处理文档中的各个字段。

示例：定义一个简单的映射，包含一个文本字段和一个关键字字段。
```
PUT /my_index
{
  "mappings": {
    "properties": {
      "text_field": { "type": "text" },
      "keyword_field": { "type": "keyword" }
    }
  }
}
```
分析（Analysis）： 分析定义了文本字段在被索引前如何被处理。它包括了分词、过滤器等操作，以创建倒排索引。分析过程影响了搜索的精度和性能。

示例：定义一个使用标准分词器的文本字段。
```
PUT /my_index
{
  "mappings": {
    "properties": {
      "text_field": {
        "type": "text",
        "analyzer": "standard"
      }
    }
  }
}
```
在这个例子中，standard 分析器将文本字段按照标准的分词规则进行分析。
数据类型： Elasticsearch 支持多种数据类型，如文本、关键字、数值、日期等。合理选择数据类型有助于提高搜索性能和减小存储空间。
字段属性： 每个字段可以具有不同的属性，如是否索引、是否存储、是否使用分析器等。这些属性会影响字段在搜索中的行为。

示例：定义一个不进行分析的关键字字段。
```
PUT /my_index
{
  "mappings": {
    "properties": {
      "keyword_field": {
        "type": "keyword",
        "index": false
      }
    }
  }
}
```
在这个例子中，index: false 表示该字段不会被索引，因此不能进行全文搜索。
动态映射： Elasticsearch 具有动态映射的能力，可以根据文档的内容自动推断字段的映射。这在处理灵活的和变化的数据结构时非常有用。

示例：使用动态映射创建索引。
```
PUT /my_index
{
  "mappings": {
    "dynamic": true, 
    "properties": {
      "text_field": { "type": "text" }
    }
  }
}
```
在这个例子中，如果文档包含未定义的字段，Elasticsearch 会根据字段值的类型自动创建映射。