Elasticsearch实战与原理学习

最新推荐文章于 2024-09-23 15:09:01 发布

大头程序员不头大

最新推荐文章于 2024-09-23 15:09:01 发布

阅读量339

点赞数

分类专栏： JAVA后端文章标签： elasticsearch

本文链接：https://blog.csdn.net/qq_38784203/article/details/111831813

版权

JAVA后端专栏收录该内容

48 篇文章

订阅专栏

本次项目将数据库视图同步到ES，介绍了ES的使用方法，包括部署、数据同步、安装分词插件等。还阐述了ES原理，如分布式实时搜索和分析功能、文件存储概念、快速索引机制等。最后总结索引思路并给出使用注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次项目先用数据库的视图把各个表的相同字段整合为一个视图，并将此视图同步到ES。
下面是学习ES使用方法以及原理:
1、将ES部署到服务器。
2、将数据同步到ES上。
3、安装分词插件(IK)。
4、分别用到了ElasticsearchTemplate、用实现类继承ElasticsearchRepository。
5、接口要规定返回字段并且使用了以下注解
@Builder
@NoArgsConstructor
@AllArgsConstructor
@Document(indexName = “xx”, type = “_doc”)

简介

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:

分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

基本概念

先说Elasticsearch的文件存储，Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档，用JSON作为文档序列化的格式。
{
“name” : “John”,
“sex” : “Male”,
“age” : 25,
“birthDate”: “1990/05/01”,
“about” : “I love to go rock climbing”,
“interests”: [ “sports”, “music” ]
}

关系数据库 ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns)

Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ 文档(Docments) ⇒ 字段(Fields)

Elasticsearch是如何做到快速索引的

为了提高查询的效率，减少磁盘寻道次数，将多个值作为一个数组通过连续区间存放，一次寻道读取多个数据，同时也降低树的高度。

Posting List
Elasticsearch分别为每个field都建立了一个倒排索引，Kate, John, 24, Female这些叫term，而[1,2]就是Posting List。Posting list就是一个int的数组，存储了所有符合某个term的文档id。

Term Dictionary
Elasticsearch为了能快速找到某个term，将所有的term排个序，二分法查找term，logN的查找效率，就像通过字典查找一样，这就是Term Dictionary。

Term Index
B-Tree通过减少磁盘寻道次数来提高查询性能，Elasticsearch也是采用同样的思路，直接通过内存查找term，不读磁盘，但是如果term太多，term dictionary也会很大，放内存不现实，于是有了Term Index，就像字典里的索引页一样，A开头的有哪些term，分别在哪页，可以理解term index是一颗树。

FST

假设我们现在要将mop, moth, pop, star, stop and top(term index里的term前缀)映射到序号：0，1，2，3，4，5(term dictionary的block位置)。最简单的做法就是定义个Map<string, integer="">，大家找到自己的位置对应入座就好了，但从内存占用少的角度想想，有没有更优的办法呢？答案就是：FST

FST以字节的方式存储所有的term，这种压缩方式可以有效的缩减存储空间，使得term index足以放进内存，但这种方式也会导致查找时需要更多的CPU资源。