ElasticSearch导读

胡尔摩斯.

于 2025-05-21 20:26:39 发布

阅读量692

点赞数 19

文章标签： ElasticSearch

本文链接：https://blog.csdn.net/2402_88002981/article/details/148123550

版权

ElasticSearch

简介：ElasticSearch简称ES是一个开源的分布式搜素和数据分析引擎。是使用Java开发并且是当前最流行的开源的企业级搜索引擎，能够达到近实时搜索，它专门设计用于处理大规模的文本数据和实现高性能的全文搜索。它基于 Apache Lucene 构建，专为处理海量数据而设计。它支持全文搜索、结构化查询、数据分析，并广泛应用于日志管理（如 ELK Stack）、电商搜索、实时监控等场景。

基本概念

术语	说明
索引（Index）	类似数据库中的“表”，存储相关文档（如 user_index）。
文档（Document）	索引中的基本数据单元，格式为 JSON（如一条用户信息）。
分片（Shard）	索引被分割成的子部分，支持分布式存储和并行计算。
节点（Node）	一个运行中的 Elasticsearch 实例，多个节点组成集群（Cluster）。

ELK技术栈

Elasticsearch结合Kibana、Logstash、Beats，也就是elastic stack（ELK）。被广泛应用在日志数据分析，实时监控等领域：

核心组件

组件	功能	配图示意（文字描述）
Logstash、Beats	数据采集与处理：从多种来源（如日志文件、数据库）收集数据，过滤并格式化后传输到 Elasticsearch。	[输入] → Logstash（过滤/转换） → [输出]
Elasticsearch	数据存储与检索：分布式存储处理后的数据，支持快速搜索和分析。	[数据存储] → Elasticsearch（索引/分片）
Kibana	数据可视化：通过图表、仪表盘展示 Elasticsearch 中的数据。	Kibana ← [查询] → Elasticsearch

总结：ELK 技术栈通过 Logstash/Beats（采集）→ Elasticsearch（存储）→ Kibana（可视化）实现数据全生命周期管理，适用于日志分析、运维监控等场景。学习时需掌握各组件配置和协同工作原理。

Elasticsearch和lucene之间的关系

说的专业一点：Elasticsearch 基于 Apache Lucene（高性能全文检索引擎库）构建，核心的索引和搜索功能由 Lucene 实现。

说的通俗一点：Lucene 是“发动机”，专注单机性能；Elasticsearch 是“整车”，集成发动机并添加了方向盘、底盘（分布式、易用性）

总结：Elasticsearch = Lucene + 分布式 + 易用接口 + 高级功能（如聚合、近实时搜索）。

索引

两个基本概念：

文档（Document）：文档是 Elasticsearch 中 最小的数据存储单元，类似于 Excel 表格中的一行数据，但更灵活。

词条（Term）：词条是文档内容经过 分词处理 后的最小单位，是搜索引擎操作的基本元素。

文档与词条的关系：

维度	文档（Document）	词条（Term）
角色	数据存储的基本单位（“完整信息包”）	搜索的基本单位（“信息碎片”）
存储方式	原始 JSON 格式，保存在索引（Index）中	分词后存储在反向索引（Inverted Index）中
操作目标	用于增删改查完整数据	用于快速检索和匹配内容

正向索引：正向索引是 以文档为中心 的索引结构，记录每个文档包含哪些关键词（类似书的目录，告诉你每本书里有什么内容）。

反向索引：反向索引是 以关键词为核心 的索引结构，记录每个关键词出现在哪些文档中（类似词典的索引页，告诉你哪个词在哪本书出现）。

正向索引VS反向索引

	正向索引	反向索引
核心逻辑	文档→关键词（书→内容）	关键词→文档（词典→书页）
搜索效率	慢（需遍历所有文档）	快（直接查关键词对应的文档）
存储空间	较小	较大（需存储词频、位置等额外信息）
典型应用	早期搜索引擎、小规模系统	现代搜索引擎（Google/Bing）、大数据系统