Elasticsearch简介

最新推荐文章于 2024-10-10 11:17:27 发布

超电磁的美琴

最新推荐文章于 2024-10-10 11:17:27 发布

阅读量573

点赞数

分类专栏：介绍文章标签： elasticsearch

本文链接：https://blog.csdn.net/misaka___/article/details/108954556

版权

Elasticsearch是一个基于Apache Lucene的分布式搜索分析引擎，支持文档型数据库操作。其通过倒排索引实现高速搜索，包括分布式实时文件存储、搜索和分析功能。文章介绍了Elasticsearch的基本概念，如索引、类型、文档和字段，以及其与关系型数据库的对比。文章重点讲解了Elasticsearch的索引机制，包括倒排索引、Term Dictionary、Term Index、FST压缩、Posting List的压缩技巧和联合索引。此外，还强调了Elasticsearch在索引时需要注意的优化策略，如避免无用索引、定义无需分析的字符串字段以及选择有规律的ID。

摘要由CSDN通过智能技术生成

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:

分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

一、基本概念
先说Elasticsearch的文件存储，Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档，用JSON作为文档序列化的格式，比如下面这条用户数据：

{
“name” : “John”,
“sex” : “Male”,
“age” : 25,
“birthDate”: “1990/05/01”,
“about” : “I love to go rock climbing”,
“interests”: [ “sports”, “music” ]
}
用Mysql这样的数据库存储就会容易想到建立一张User表，有balabala的字段等，在Elasticsearch里这就是一个文档，当然这个文档会属于一个User的类型，各种各样的类型存在于一个索引当中。

这里有一份简易的将Elasticsearch和关系型数据术语对照表:

关系数据库 ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns)

Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ 文档(Docments) ⇒ 字段(Fields)
一个 Elasticsearch 集群可以包含多个索引(数据库)，也就是说其中包含了很多类型(表)。这些类型中包含了很多的文档(行)，然后每个文档中又包含了很多的字段(列)。Elasticsearch的交互，可以使用Java API，也可以直接使用HTTP的Restful API方式，比如我们打算插入一条记录，可以简单发送一个HTTP的请求：

PUT /megacorp/employee/1
{
“name” : “John”,
“sex” : “Male”,
“age” : 25,
“about” : “I love to go rock climbing”,
“interests”: [ “sports”, “music” ]
}
更新，查询也是类似这样的操作。

二、索引
Elasticsearch最关键的就是提供强大的索引能力。

Elasticsearch索引的精髓：

一切设计都是为了提高搜索的性能

另一层意思：为了提高搜索的性能，难免会牺牲某些其他方面，比如插入/更新，否则其他数据库不用混了。前面看到往Elasticsearch里插入一条记录，其实就是直接PUT一个json的对象，这个对象有多个fields，比如上面例子中的name, s