JAVA面试题-拓展-CSDN博客

本文链接：https://blog.csdn.net/m0_37574375/article/details/137826998

一、ELK

（1）elasticsearch为什么快？

Elasticsearch之所以能够实现快速检索，主要归因于以下几个关键特性与设计原则：
1. 倒排索引（Inverted Index）
Elasticsearch的核心在于其高效的倒排索引结构。在传统的关系型数据库中，数据通常以行式存储，通过主键或聚簇索引来快速定位记录。而Elasticsearch针对全文搜索场景，构建了倒排索引来加速查询。
倒排索引原理：
将原始文档中的每个词汇（经过分词处理后）作为索引项。
对每个词汇维护一个包含该词汇的所有文档ID的列表，即“词汇→文档ID集合”的映射。
查询时，直接根据查询词汇在倒排索引中查找对应的文档ID集合，无需扫描所有文档。
优势：
快速匹配：只需遍历与查询词汇相关的索引条目，而非全表扫描。
多词查询优化：对于多个查询词汇，可以通过并集、交集、差集等操作高效合并相关文档ID列表，实现复杂查询条件下的快速过滤。
2. 分布式架构与水平扩展
Elasticsearch设计为分布式的、基于Lucene的搜索引擎，能够轻松地在集群中添加节点以扩展存储容量和处理能力。数据被自动分片（sharding）并在多个节点间均衡分布，每个节点独立处理其上的查询请求。这种架构允许：
负载均衡：查询负载分散到集群内的各个节点，避免单点瓶颈。
并行处理：每个节点并行执行查询，显著减少整体响应时间。
容错性：数据冗余备份（replication），确保高可用性。即使部分节点故障，系统仍能继续服务。
3. 实时索引与近实时搜索
Elasticsearch支持近乎实时（near real-time, NRT）的索引更新与搜索：
快速索引：文档写入后，经过短暂的刷新周期（默认为1秒），即可被搜索到。
实时更新：索引数据的变更能迅速反映到搜索结果中，满足实时应用需求。
4. 高效数据结构与算法
内部使用高度优化的数据结构和算法，如Bloom filters、Skip lists等，用于降低内存消耗、提高查询效率：
Bloom filters：用于在查询阶段快速过滤掉不可能匹配的文档，减少磁盘I/O。
Skip lists：在倒排索引中实现高效的跳跃式查找，加速文档ID列表的遍历。
5. 缓存机制
Elasticsearch利用多种缓存策略来加速查询：
查询缓存：对重复或频繁的查询结果进行缓存，后续相同查询可直接返回结果，减少计算开销。
字段数据缓存：存储热门字段的原始数据，避免频繁解压缩倒排索引中的文档值。
6. 高效的文档分词与分析
Elasticsearch内置丰富的分词器和文本分析器，对输入的查询文本和索引文档进行预处理：
分词：将文本分割成有意义的词汇单元，便于构建倒排索引和执行精确/模糊匹配。
分析：支持 Stemming（词干提取）、Stop words removal（停用词去除）、Token filtering（令牌过滤）等，优化索引大小与查询质量。
综上所述，Elasticsearch通过倒排索引、分布式架构、实时性、高效数据结构与算法、缓存机制以及强大的文本分析能力，实现了在大规模数据集上进行快速、准确、灵活的全文检索与数据分析。这些特性使其成为处理亿级别数据实时检索的理想选择。