深入剖析Elasticsearch倒排索引，Query DSL查询使用场景分析

LiRuiJie

于 2025-07-09 18:00:21 发布

阅读量1.1k

点赞数 15

CC 4.0 BY-SA版权

分类专栏： ES 文章标签： elasticsearch 搜索引擎架构

本文链接：https://blog.csdn.net/lrj41781196/article/details/149228682

ES 专栏收录该内容

1 篇文章

订阅专栏

一、Elasticsearch架构概览

Elasticsearch 是一个分布式、RESTful 风格的搜索与分析引擎，建立在 Apache Lucene 之上，广泛用于全文搜索、结构化数据查询、实时分析等场景。其底层架构具有高度的模块化与分布式特性，下面我们从核心组件、索引机制、搜索流程、分布式架构等多个方面进行深入剖析。

1. 核心架构总览

Elasticsearch 架构图如下：

             +-------------+       +-------------+
             |     Node    | <---> |     Node    |
             +-------------+       +-------------+
                   ↑                    ↑
                   | Cluster Coordination (Zen-DISCO)
                   ↓                    ↓
             +-----------------------------+
             |          Cluster            |
             +-----------------------------+
                   ↑
                   |
             +-------------+
             |   REST API  |
             +-------------+
                   ↓
             +-------------+
             |  Transport  |
             +-------------+
                   ↓
             +-------------+
             |   Indices   |
             +-------------+

2. 核心组件详解

1. Cluster（集群）

由多个 Node 组成，共同持有所有数据。
集群有唯一标识名（cluster.name）。
每个集群有一个主节点（Master），负责元数据管理。

2. Node（节点）

是 Elasticsearch 的一个运行实例。
类型：
- Master Node：管理元数据、分片分配等；
- Data Node：负责存储和搜索数据；
- Client/Coordinator Node：处理客户端请求、转发、聚合等；
- Ingest Node：处理预处理管道（Pipeline）。

3. Index（索引）

类似关系型数据库中的“数据库”或“表”。
一个索引可由多个分片（Primary + Replica）组成。

4. Shard（分片）

每个索引会被划分为多个分片（Primary Shard），每个分片是一个独立的 Lucene 实例。
支持副本分片（Replica），用于高可用和负载均衡。

3. 写入流程（索引文档）

客户端 → 协调节点（Coordinator）→ 主分片 → 副本分片 → 成功响应

步骤详解：

客户端通过 REST API 发起 POST /index/_doc 请求。
协调节点接受请求，根据路由算法（hash(_id)）选择主分片。
写入主分片，生成 _version，记录写入顺序。
将写入请求同步到副本分片。
所有副本写入成功后返回响应。

4. 读取流程（搜索查询）

客户端 → 协调节点 → 所有副本/主分片并发搜索 → 聚合 → 返回结果

分两阶段：

Query Phase：
- 分发查询到所有分片（副本或主分片）；
- 每个分片执行 Lucene 查询；
- 返回 TopN 候选文档及打分。
Fetch Phase：
- 根据文档 _id 去目标分片提取完整文档；
- 合并排序、分页、构造最终响应。

5. 存储机制（Lucene + Segment）

1. Lucene 索引结构

倒排索引（Inverted Index）
支持 BM25、TF-IDF 打分
使用 FST、词典、压缩机制优化空间和查询效率

2. Segment（段）

每次写入都会创建新 Segment，Segment 只追加，不修改。
定期触发 merge：
- 减少 Segment 数量；
- 回收已删除文档；
- 提升查询效率。

6. 倒排索引剖析

以文档：

{ "title": "Elasticsearch is great" }

倒排索引构建：

term → [docID1, docID2, ...]
"elasticsearch" → [1]
"is"           → [1]
"great"        → [1]

支持：

短语搜索、模糊匹配；
字段级别控制（如 keyword vs. text）；
支持聚合和排序。

7. 分布式协调与容错机制

1. 主节点选举（Zen-DISCOVERY）

使用 gossip + quorum 策略；
heartbeat 检测节点状态；
需要超过半数主节点（min_master_nodes）参与才能选主。

2. 分片分配与重分配

Elasticsearch 自动管理分片分配；
支持 shard relocation、replica recovery；
使用写入顺序号 seq_no 和 checkpoint 管理一致性。

8. 事务与一致性机制

1. 近实时（NRT）

写入后不会立即可搜索，默认每 1 秒刷新一次。

2. Write Consistency

可配置：quorum、all、one；
使用 _version 防止并发冲突。

3. Refresh / Flush / Merge

refresh：使写入可见（建立 segment reader）；
flush：写入磁盘并清理 translog；
merge：段合并以优化查询性能。

9. 其他关键机制

1. Translog

所有写操作先写入 translog（事务日志）；
如果节点崩溃，通过 translog 恢复数据。

2. Circuit Breaker

防止内存溢出；
为每个阶段设置内存限额，如字段数据、聚合等。

3. Caching

Query Cache（搜索请求缓存）；
Fielddata Cache（排序、聚合）；
Shard Request Cache（跨段共享缓存）。

10. 架构优势总结

特性	说明
高可用	支持副本、副本恢复机制
高性能	底层 Lucene 支撑，segment 合并优化
实时性	Near-Real-Time，默认 1 秒内可搜索
可扩展	节点水平扩展，索引可横跨节点
丰富 API	支持全文检索、聚合、过滤、排序等

二、深入剖析Elasticsearch倒排索引原理

Elasticsearch（ES）中的索引设计，直接影响查询性能、写入效率、资源使用与系统可维护性。一个合理的索引设计要综合考虑 数据模型、业务查询模式、写入量、冷热数据管理、容量规划 等多个维度。下面我们从基础概念、字段建模、映射设计、倒排索引构建、分片与副本策略、典型索引设计模式等方面进行 深入剖析。

1. ES 索引的本质理解

Elasticsearch 中的「索引（Index）」 ≈ 关系型数据库中的「表（Table）」，但 每个索引其实是一个 Lucene 的索引集合（多个分片）。

一个 ES 索引由以下组成：

组成部分	说明
Index	索引名，唯一
Mapping	字段结构定义（字段类型、分词器、索引/存储配置）
Document	文档（JSON）结构体
Field	文档中的字段，决定倒排索引构建方式
Shard	分片，独立 Lucene 实例，索引的物理子集
Replica	副本，提升可用性和查询并发能力

2. 索引设计核心原则

✅ 1. 以查询为导向（Query-Driven Design）

避免过度范式化（不适合 join）；
针对高频查询进行字段冗余、嵌套设计；
设计时考虑排序、聚合、过滤字段的数据结构。

✅ 2. 控制索引数量与大小

索引太多：资源浪费、文件句柄耗尽；
索引太大：segment 多、merge 慢、查询慢；
建议单个索引控制在 50GB ~ 100GB/Shard。

✅ 3. 避免动态字段

dynamic: true 虽然灵活，但会带来 mapping explosion（爆炸）；
建议使用模板统一结构，限制字段类型。

3. Mapping（映射）设计细节

Mapping 是字段的元信息配置，影响索引构建和查询行为。核心配置包括：

配置项	含义
`type`	字段类型：text、keyword、date、long、nested、geo_point 等
`index`	是否建立倒排索引（默认 true）
`store`	是否单独存储字段（默认 false，依赖 `_source`）
`analyzer`	使用的分词器，影响倒排索引构建
`doc_values`	是否建立列式存储，排序/聚合依赖
`fielddata`	text 字段是否允许聚合（需开启）
`copy_to`	将多个字段复制到一个虚拟字段（组合搜索）
`null_value`	null 替代值，支持聚合分析

示例：

{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "category": {
        "type": "keyword"
      },
      "price": {
        "type": "double"
      },
      "created_at": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||epoch_millis"
      }
    }
  }
}

4. 字段类型选择建议

类型	用途场景	注意事项
`text`	全文检索字段（可分词）	不可聚合/排序，需设置 subfield
`keyword`	精确匹配字段（不分词）	适用于标签、状态等
`date`	时间字段	可聚合、排序
`numeric`	long/double/float 等数值	支持排序/聚合
`boolean`	布尔字段	聚合效率高
`nested`	复杂嵌套数组对象	查询开销大，慎用
`object`	普通 JSON 对象	无法进行嵌套精确匹配

`text` + `keyword` 组合方式：

"title": {
  "type": "text",
  "fields": {
    "raw": { "type": "keyword" }
  }
}

title：用于全文搜索；
title.raw：用于精确匹配、聚合、排序。

5. 倒排索引构建机制（核心）

以文本 "Elasticsearch is powerful" 为例：

1. 分词器处理

Elasticsearch → elasticsearch  
is            → is  
powerful      → powerful

2. 倒排索引结构（Lucene）

term         → postings list
"elasticsearch" → [docId: 1, pos: 1]
"is"             → [docId: 1, pos: 2]
"powerful"       → [docId: 1, pos: 3]

特点：

空间压缩 + 查询高速
不支持更新，只能追加 + Merge
使用 FST（有限状态机） 实现快速词项定位

6. 分片策略设计

1. 分片数量设计

一旦索引创建后不能更改分片数；
分片过多导致资源浪费；
推荐：每个分片数据量控制在 10GB ~ 30GB；
使用 rollover + ILM 控制索引生命周期。

2. 分片路由算法

shard = hash(_routing / _id) % number_of_primary_shards
可自定义 _routing 字段做数据倾斜控制（如 userId）。

7. 时间序列数据索引设计（日志类常见）

常见设计方案：

模式	说明
单索引	所有数据入一个索引，易爆表
时间分区索引	`log-2025.07.09`，按天/小时分
Rollover	基于文档数量/大小自动切索引
Index Lifecycle Management（ILM）	控制热数据、冷数据、删除等生命周期

示例：

log-000001 → rollover 5GB or 10M docs → log-000002 → ...

8. 典型索引设计模式

1. 电商商品索引（冗余字段 + 嵌套属性）

{
  "product_id": "P001",
  "title": "Nike Air Max",
  "category": "shoes",
  "tags": ["sport", "men"],
  "price": 799,
  "skus": [
    { "color": "black", "size": "42", "stock": 100 },
    { "color": "white", "size": "43", "stock": 50 }
  ]
}

tags 用 keyword 数组；
skus 用 nested 类型；
title 用 text + keyword 组合。

2. 日志数据索引

每日索引：logstash-2025.07.09；
每条日志文档字段：
- timestamp, level, message, host, app_id；
分析类字段（message）用 text；
过滤/聚合字段（level, app_id）用 keyword。

9. 调优建议

目标	调优手段
提升写入	使用 bulk 批量写入；合理设置 refresh_interval；避免频繁 flush
提升查询	使用 filter + cache；doc_values 开启；避免查询 nested
控制 mapping 大小	限制动态字段；字段归一化（如日志只保留必要字段）
降低资源占用	合理设置副本数、segment merge 策略；ILM 管理

10. 小结：如何设计“好”的 ES 索引

从查询出发建模，而非从业务模型出发
控制字段数量、类型，避免 mapping explosion
关注冷热数据、索引大小、生命周期
结合业务选择时间分区策略、分片数、副本数
定期评估字段是否真正需要索引/聚合/排序

三、分析Elasticsearch高性能查询的原理

Elasticsearch（ES）之所以能实现高性能查询，核心在于其底层引擎 Lucene 所提供的：

倒排索引 + 索引预处理结构 + 高效过滤机制 + segment 异步合并 + 缓存设计 + 并发执行模型

1. 核心底层原理总览

Elasticsearch 查询快速的本质原因可以分为以下几大类：

关键机制	核心作用
✅ 倒排索引（Inverted Index）	实现全文检索的极速反查
✅ 基于 segment 的索引文件结构	支持并行读取、无锁查询
✅ Bitmap+跳跃表+FST优化	加速定位词项和文档编号
✅ Filter 位图缓存	支持缓存结果快速过滤
✅ Lucene 的 skip list	跳跃式查找文档，避免线性扫描
✅ 查询与聚合并发执行	启动线程池并行处理 shard-level 查询
✅ doc_values 列式存储	聚合与排序高效，按需读取
✅ segment-level merge 策略	写多读快、后台异步合并提升性能

2. 倒排索引（Inverted Index）：全文检索的关键

✅ 1. 结构示意图：

term       → posting list (docID, freq, position, offset)
----------------------------------------------------------
"hello"    → [(doc1, 2), (doc4, 1)]
"world"    → [(doc2, 1), (doc4, 3)]

✅ 2. 查询流程：

用户输入关键词，如 Elasticsearch;
使用分析器（analyzer）进行分词、标准化；
定位倒排索引中是否有该词；
获取该词对应的文档编号（posting list）；
根据权重进行评分（BM25）；
返回排序后的 Top-N 文档。

✅ 3. 为什么快？

不需要扫描全量文档；
基于 “词→文档ID” 映射反查；
可使用 skip list +位图 跳跃式定位。

3. Segment + Lucene 数据结构

ES 底层数据以 Lucene Segment（段） 为单位存储，每个 segment 是一个不可变的倒排索引子集：

Segment 文件	描述
`.tip`/`.tim`	FST结构，存储 term tree，加速定位
`.doc`	文档元信息
`.pos`	词项位置（用于 phrase 查询）
`.fdx`/`.fdt`	`_source` 原始字段
`.dvd`	`doc_values` 列式字段
`.nvd`	数值字段存储

查询时只读 segment，无需加锁

多 segment 并行查询；
查询无锁、稳定；
写操作采用写新 segment，不影响查询。

4. Lucene 查询加速结构

✅ 1. Skip List 跳跃查找

在倒排列表中引入跳跃点，实现跳表式快速定位文档：

传统线性扫描 → O(n)
SkipList 查询 → O(log n)

用于如 match_phrase、fuzzy 查询中词位查找。

✅ 2. FST（Finite State Transducer）词典压缩 + 快速定位

构建有限状态机，快速在百万词中查找词项；
支持前缀查询、自动补全；
内存常驻结构，读取非常快。

5. Filter 查询优化：不参与评分，但过滤高效

查询结构中：

{
  "bool": {
    "filter": [
      { "term": { "status": "success" } },
      { "range": { "timestamp": { "gte": "now-1d" } } }
    ]
  }
}

为什么 filter 快？

filter 不打分（不计算 BM25）；
查询结果可缓存 bitmap；
位图运算复杂度低，适合布尔组合。

Filter Cache 层次：

Lucene BitSet（位图）；
ES Query Cache（节点级）；
Segment Cache（segment 粒度）；
请求合并（shard request merge）。

6. 聚合/排序使用 `doc_values` 列式存储

传统倒排索引不适合排序/聚合，为此 Lucene 提供 doc_values：

特点	描述
列式存储	每个字段构建一列，每行是文档值
不加载 `_source`	不解压原始 JSON，节省资源
聚合时高效	只读目标字段，跳跃访问
默认开启	对数值、keyword、date 默认开启
不支持 text	text 类型默认无 doc_values

7. 并发查询执行：Shard 层级并行化

每个索引有多个分片（primary + replica）；
查询请求会并发发往每个分片；
每个分片独立使用 Lucene 查询（线程池）；
最后由 coordinating node 聚合 topN 结果。

8. 查询优化机制汇总

优化项	原理
倒排索引	从词找文档，跳跃反查
segment 并行	每段独立查找、无锁
FST + SkipList	高速定位词项和文档位置
Filter 位图	Bitmap 与缓存高效过滤
doc_values	聚合、排序专用的列式结构
segment merge	异步合并提升后续查询性能
Query Cache	重复请求命中缓存，降低 IO

四、Elasticsearch查询API使用分类介绍

1. 查询方式分类总览

Elasticsearch 查询 DSL（Domain Specific Language）按功能可大致分为以下几类：

查询类别	查询器类型	说明
✅ 精确匹配	`term`, `terms`, `range`, `prefix`	不分词，适用于结构化数据
✅ 全文搜索	`match`, `match_phrase`, `multi_match`	分词后匹配，适用于文本字段
✅ 复合查询	`bool`, `constant_score`, `dis_max`	多条件组合
✅ 过滤查询	`filter`（通常嵌入在 `bool` 中）	不计打分，高效
✅ 聚合分析	`aggregations`	聚合、分桶、统计
✅ 嵌套查询	`nested`	嵌套文档
✅ 模糊与容错	`fuzzy`, `wildcard`, `regexp`	容错匹配
✅ 评分相关	`function_score`	自定义打分逻辑
✅ 建议/推荐	`suggest`	拼写纠错、自动补全
✅ 地理位置查询	`geo_distance`, `geo_bounding_box`	地图应用相关

2. 典型查询器详解与场景示例

🔹 1. `term` 精确匹配（适合 keyword、ID 等）

说明：不分词，完全匹配字段值。

GET products/_search
{
  "query": {
    "term": {
      "category.keyword": "shoes"
    }
  }
}

✅ 使用场景：

筛选商品所属类目；
按用户 ID、订单号查数据。

🔹 2. `match` 分词查询（适合全文字段）

说明：会使用字段设置的 analyzer 进行分词，然后与倒排索引匹配。

GET articles/_search
{
  "query": {
    "match": {
      "title": "Elasticsearch 分布式架构"
    }
  }
}

✅ 使用场景：

搜索商品名称、新闻标题、博客内容；
中文搜索（如使用 ik_max_word 分词器）；

🔹 3. `match_phrase` 短语查询

说明：匹配连续出现的词组，支持 slop（容错距离）。

GET articles/_search
{
  "query": {
    "match_phrase": {
      "title": {
        "query": "分布式 架构",
        "slop": 1
      }
    }
  }
}

✅ 使用场景：

对“关键短语”的精确搜索，如“智能手表”、“大数据分析”；
用户查询的意图更加明确时。

🔹 4. `bool` 组合查询

说明：用于组合多个查询条件，支持 must（AND）、should（OR）、must_not（NOT）、filter（不评分过滤）等。

GET products/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "手机" } }
      ],
      "filter": [
        { "term": { "brand.keyword": "Apple" } },
        { "range": { "price": { "lte": 5000 } } }
      ]
    }
  }
}

✅ 使用场景：

商品筛选（搜索 + 分类 + 价格区间）；
用户行为日志查询（用户 ID + 时间范围 + 动作类型）。

🔹 5. `range` 区间查询

GET logs/_search
{
  "query": {
    "range": {
      "timestamp": {
        "gte": "now-1d/d",
        "lt": "now/d"
      }
    }
  }
}

✅ 使用场景：

时间范围查询（日志、交易、订单）；
数值型过滤（价格、积分、库存等）。

🔹 6. `multi_match` 多字段匹配

GET job/_search
{
  "query": {
    "multi_match": {
      "query": "Java 架构师",
      "fields": ["title^2", "description"]
    }
  }
}

✅ 使用场景：

在多个字段中搜索关键词；
可通过 ^ 提升字段权重。

🔹 7. `nested` 嵌套文档查询

GET products/_search
{
  "query": {
    "nested": {
      "path": "skus",
      "query": {
        "bool": {
          "must": [
            { "term": { "skus.color": "black" } },
            { "range": { "skus.stock": { "gt": 0 } } }
          ]
        }
      }
    }
  }
}

✅ 使用场景：

多规格商品（如颜色 + 尺码）；
评分 + 评论 + 用户嵌套模型。

🔹 8. `fuzzy` 模糊查询（拼写错误容错）

GET users/_search
{
  "query": {
    "fuzzy": {
      "name": {
        "value": "jonh",
        "fuzziness": "AUTO"
      }
    }
  }
}

✅ 使用场景：

用户搜索拼写错误容忍；
名字、品牌容错匹配（如“huawei” vs “huwei”）。

🔹 9. `suggest` 自动补全、拼写建议

GET books/_search
{
  "suggest": {
    "title_suggest": {
      "text": "jav",
      "completion": {
        "field": "title_suggest"
      }
    }
  }
}

✅ 使用场景：

搜索框输入自动补全；
拼写校正、模糊推荐。

🔹 10. `aggregations` 聚合统计

GET sales/_search
{
  "size": 0,
  "aggs": {
    "sales_by_category": {
      "terms": {
        "field": "category.keyword"
      }
    }
  }
}

✅ 使用场景：

电商报表（按品类销售汇总）；
数据仪表盘、分组统计、TopN 分析。

3. 典型业务场景对照查询方式

业务场景	推荐查询器 / 类型	查询特点
商品搜索（关键词 + 筛选）	`bool` + `match` + `filter`	组合条件，结构化+全文
日志查询	`range` + `term` + `match`	高并发、时间驱动
用户行为分析	`terms` + `range` + `agg`	聚合+时间段
地址搜索 / 地图附近商家	`geo_distance`	经纬度搜索
多规格商品查询（颜色+尺码）	`nested`	嵌套对象
拼写容错 / 推荐	`fuzzy` + `suggest`	用户友好
新闻搜索 / 文章推荐	`match_phrase`, `function_score`	语义匹配、打分
招聘系统搜索	`multi_match` + `bool`	多字段搜索

4. 优化建议

优化点	建议说明
精确匹配字段	使用 `keyword` 类型字段，并用 `term/terms` 查询
排序字段	开启 `doc_values`，避免 `text` 字段排序
全文字段	设置合适分词器，避免过度分词
嵌套字段	尽量避免复杂嵌套或深层结构
聚合字段	使用 `keyword` 类型，聚合更高效
查询合并	使用 `bool` 聚合多个查询条件，支持复用 filter

5. 小结

Elasticsearch 的查询方式灵活强大，从简单结构化过滤到复杂全文匹配、嵌套搜索、地理搜索、聚合分析、拼写建议等都能覆盖。在设计查询时：

结构化字段 → 精确匹配/过滤（filter/term/range）
文本字段 → 分词查询/排序（match/multi_match）
多字段或多条件 → bool 查询
复杂结构 → nested + bool
分析场景 → aggregation 组合

五、Elasticsearch的Query DSL使用介绍

Elasticsearch 的 Query DSL（Domain Specific Language）是基于 JSON 的查询语言，专门用于构建强大、复杂的搜索语句。它不仅支持 全文搜索，还能实现 布尔逻辑组合、结构化过滤、排序、高亮、聚合分析、脚本评分、嵌套文档查询、自动补全等复杂操作。

1. Query DSL 总体结构

ES 的查询语句主要由两大类组成：

类型	用途
`query`	执行全文或精确查询，参与相关性评分
`filter`	不计算相关性，仅用于数据过滤，性能更高

通用结构模板：

GET /index/_search
{
  "query": {
    // 查询结构
  },
  "from": 0,
  "size": 10,
  "sort": [{ "price": "desc" }],
  "highlight": {
    "fields": {
      "title": {}
    }
  }
}

2. 常见查询语句类型详解（Query Context）

✅ 1. `match`：全文搜索（分词）

{
  "match": {
    "title": "Elasticsearch 分布式架构"
  }
}

使用字段定义的分词器；
会进行相关性打分（BM25）；
支持 operator, minimum_should_match 参数控制词匹配。

✅ 2. `term`：精确匹配（不分词）

{
  "term": {
    "status": "success"
  }
}

通常用于 keyword、数值、布尔字段；
精确比对字段值（不分词）；
可搭配 terms 一次匹配多个值。

✅ 3. `range`：范围查询

{
  "range": {
    "created_at": {
      "gte": "2024-01-01",
      "lt": "2025-01-01"
    }
  }
}

支持数值、日期字段；
运算符：gte, lte, gt, lt；
典型应用：时间查询、价格筛选等。

✅ 4. `bool`：复合查询器

{
  "bool": {
    "must": [      // 相当于 AND
      { "match": { "title": "Elasticsearch" } }
    ],
    "filter": [    // 精确过滤，不参与打分
      { "term": { "status": "published" } },
      { "range": { "price": { "lte": 1000 } } }
    ],
    "must_not": [  // 相当于 NOT
      { "term": { "category": "banned" } }
    ],
    "should": [    // OR，可设置 `minimum_should_match`
      { "term": { "tags": "推荐" } },
      { "term": { "tags": "热卖" } }
    ]
  }
}

必须掌握的组合器；
filter 是推荐使用的高性能方式；
should 条件可加权或用于提升匹配度。

✅ 5. `multi_match`：多字段搜索

{
  "multi_match": {
    "query": "Java 架构师",
    "fields": ["title^3", "description"],
    "type": "best_fields"
  }
}

支持字段加权（^）；
查询多个字段，如标题、内容、标签等；
类型：best_fields, most_fields, cross_fields, phrase, phrase_prefix。

✅ 6. `match_phrase`：短语匹配（连续出现）

{
  "match_phrase": {
    "title": {
      "query": "搜索 引擎",
      "slop": 2
    }
  }
}

用于匹配词组，要求顺序与距离；
slop: 容许词间插入词数量（间隔控制）。

✅ 7. `fuzzy`：模糊匹配（拼写容错）

{
  "fuzzy": {
    "username": {
      "value": "jonh",
      "fuzziness": "AUTO"
    }
  }
}

容忍用户拼写错误；
内部实现是编辑距离匹配（Levenshtein）。

✅ 8. `wildcard` / `regexp`：通配/正则

{
  "wildcard": {
    "name.keyword": {
      "value": "user*"
    }
  }
}

通配符：? 单个字符，* 任意字符；
正则支持 Java 正则语法；
慎用，性能差（扫描全部词典）。

✅ 9. `nested`：嵌套对象查询

{
  "nested": {
    "path": "comments",
    "query": {
      "bool": {
        "must": [
          { "match": { "comments.author": "张三" } },
          { "range": { "comments.score": { "gt": 4 } } }
        ]
      }
    }
  }
}

适用于数组中嵌套对象精确匹配；
保证子字段匹配在同一个嵌套对象内。

✅ 10. `script`：脚本自定义查询/排序

{
  "script_score": {
    "query": { "match_all": {} },
    "script": {
      "source": "doc['click_count'].value * 0.5 + doc['score'].value"
    }
  }
}

灵活控制排序权重、相关性；
适用于个性化推荐、打分排序等。

3. 查询优化建议（性能与准确性）

优化项	建议
✅ 查询字段	使用 `.keyword` 精确匹配字段
✅ 聚合/排序字段	设置 `doc_values: true`，避免用 text
✅ 多条件组合查询	使用 `bool`，将精确条件放入 `filter`
✅ 大字段避免全文查询	防止匹配过广，增加命中成本
✅ 使用 `source filtering`	控制返回字段，降低网络开销
✅ 使用 `profile` 分析	查看慢查询瓶颈结构

4. DSL 调试工具

Kibana Dev Tools（最常用）
Postman / curl 调试 JSON 查询
_validate/query?explain=true
_search/profile 查看执行计划

5. 完整示例：商品搜索 DSL

GET /products/_search
{
  "from": 0,
  "size": 10,
  "query": {
    "bool": {
      "must": [
        { "multi_match": {
            "query": "无线蓝牙耳机",
            "fields": ["title^2", "description"]
        }}
      ],
      "filter": [
        { "term": { "brand.keyword": "Apple" } },
        { "range": { "price": { "lte": 2000 } } }
      ]
    }
  },
  "sort": [
    { "sales_volume": "desc" },
    "_score"
  ],
  "highlight": {
    "fields": {
      "title": {},
      "description": {}
    }
  }
}

6. 总结

查询器类型	是否分词	是否打分	用途说明
`match`	✅	✅	全文搜索
`term`	❌	✅	精确匹配
`range`	❌	❌	区间查询
`bool`	-	✅	多条件组合
`filter`	❌	❌	性能优先
`nested`	-	✅	嵌套结构
`fuzzy`	✅	✅	容错查询
`script`	-	✅	自定义评分

六、基于用户日志系统的业务场景使用Elasticsearch Query DSL

1. 用户日志索引映射（mapping）示例

PUT /user_logs
{
  "mappings": {
    "properties": {
      "user_id": { "type": "keyword" },
      "event_type": { "type": "keyword" },
      "timestamp": { "type": "date" },
      "ip": { "type": "ip" },
      "device": { "type": "keyword" },
      "message": {
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "meta": {
        "type": "object",
        "enabled": true
      }
    }
  }
}

2. 业务查询目标

我们希望查询过去 7 天内：

某个 user_id 的所有操作记录；
行为类型为 "login" 或 "view_page"；
文本日志 message 中包含关键词 "异常"；
支持按 timestamp 倒序排序；
分页返回每页 10 条；
聚合统计：每种行为类型的数量；
高亮展示日志 message 中的命中内容。

3. 完整 Query DSL 构建

GET /user_logs/_search
{
  "from": 0,
  "size": 10,
  "query": {
    "bool": {
      "must": [
        {
          "terms": {
            "event_type": ["login", "view_page"]
          }
        },
        {
          "match": {
            "message": {
              "query": "异常",
              "operator": "and"
            }
          }
        }
      ],
      "filter": [
        {
          "term": {
            "user_id": "u123456"
          }
        },
        {
          "range": {
            "timestamp": {
              "gte": "now-7d/d",
              "lt": "now/d"
            }
          }
        }
      ]
    }
  },
  "sort": [
    { "timestamp": "desc" }
  ],
  "highlight": {
    "fields": {
      "message": {
        "pre_tags": ["<mark>"],
        "post_tags": ["</mark>"]
      }
    }
  },
  "aggs": {
    "event_type_count": {
      "terms": {
        "field": "event_type"
      }
    }
  }
}

4. 字段解释与扩展

字段块	功能与说明
`must`	执行需要打分的查询（如关键词匹配）
`filter`	不打分，高性能过滤，如用户ID、时间范围
`terms`	精确匹配多个值，适用于枚举字段
`match`	文本分词搜索
`range`	时间段查询
`highlight`	结果高亮，用于 UI 展示
`aggs`	聚合字段统计，适合构建图表、报表
`sort`	日志时间倒序排列
`from`, `size`	分页控制

5. 衍生查询示例

1. 按用户 + IP 查询登录失败行为

"bool": {
  "must": [
    { "term": { "event_type": "login" } },
    { "match": { "message": "登录失败" } }
  ],
  "filter": [
    { "term": { "user_id": "u0001" } },
    { "term": { "ip": "192.168.1.100" } }
  ]
}

2. 最近 24 小时内，每小时行为分布（直方图）

"aggs": {
  "per_hour": {
    "date_histogram": {
      "field": "timestamp",
      "interval": "1h"
    },
    "aggs": {
      "by_type": {
        "terms": {
          "field": "event_type"
        }
      }
    }
  }
}

6. 优化建议

目标	建议
高并发日志写入	设置 `refresh_interval` 为 `30s+`，使用 bulk
查询性能优化	使用 `filter` 替代 `must`，启用字段 `doc_values`
日志查询分页	使用 `search_after` 替代 deep pagination
存储成本优化	配合 `ILM` 管理冷热日志（如 7 天热、30 天冷、90 天删）
查询稳定性	控制 `max_clause_count` 避免复杂 query 爆栈