ElasticSearch学习总结（二）：ES介绍与架构说明

最新推荐文章于 2024-08-08 14:53:21 发布

铁猴

最新推荐文章于 2024-08-08 14:53:21 发布

阅读量1.1w

点赞数 5

分类专栏：大数据存储与分析文章标签： Elasticsearch Lucense 基本架构工作原理

本文链接：https://blog.csdn.net/eric_sunah/article/details/79404064

版权

本文详细介绍了Lucene，作为Elasticsearch的核心，其定义、架构、数据分析以及索引和查询过程。接着，文章阐述了Elasticsearch的基本概念，包括索引、文档、节点、集群和分片，以及其工作原理，如启动、故障检测、数据索引和查询机制。通过对Lucene和Elasticsearch的深入理解，有助于掌握全文搜索引擎的工作原理。

摘要由CSDN通过智能技术生成

本文主要从概念以及架构层面对Elasticsearch做一个简单的介绍，在介绍ES之前，会先对ES的“发动机”Lucene做一个简单的介绍

1. Lucene介绍

为了更深入地理解ElasticSearch的工作原理，特别是索引和查询这两个过程，理解Lucene的工作原理至关重要。本质上，ElasticSearch是用Lucene来实现索引的查询功能的。

1.1 定义

Lucene是一个成熟的、高性能的、可扩展的、轻量级的，而且功能强大的搜索引擎包。Lucene的核心jar包只有一个文件，而且不依赖任何第三方jar包。更重要的是，它提供的索引数据和检索数据的功能开箱即用。当然，Lucene也提供了多语言支持，具有拼写检查、高亮等功能。

1.2 架构

1.2.1 术语

Lucene中的术语和 <

1.2.2 存储

Apache Lucene把所有的信息都写入到一个称为倒排索引的数据结构中，倒排索引的介绍可以参考 <

1.3 数据分析

学习ES初期，我经常考虑的问题是，传入到Document中的数据是如何转变成倒排索引的？查询语句是如何转换成一个个Term使高效率文本搜索变得可行？这种转换数据的过程就称为文本分析(analysis)

文本分析工作由analyzer组件负责。analyzer由一个分词器(tokenizer)和0个或者多个过滤器(filter)组成,也可能会有0个或者多个字符映射器(character mappers)组成。

Lucene中的tokenizer用来把文本拆分成一个个的Token。Token包含了比较多的信息，比如Term在文本的中的位置及Term原始文本，以及Term的长度。文本经过tokenizer处理后的结果称为token stream。token stream其实就是一个个Token的顺序排列。token stream将等待着filter来处理。

除了tokenizer外，Lucene的另一个重要组成部分就是filter链，filter链将用来处理Token Stream中的每一个token。这些处理方式包括删除Token,改变Token，甚至添加新的Token。Lucene中内置了许多filter，读者也可以轻松地自己实现一个filter。有如下内置的filter：