【ElasticSearch系列连载】5. ES入门基础与常见操作

本文链接：https://blog.csdn.net/josiah_zhao/article/details/125408158

【ElasticSearch系列连载】5. ES入门基础与常见操作

1 ES 数据格式-JSON

我们要存储的对象通常不是简单的键值对就能表示的，更多的情况是需要存储更加复杂的数据结构，比如数组、地址、嵌套结构等等。

如果我们使用传统的关系型数据库进行常见的行列存储的话，很多情况我们都需要将一些复杂的数据结构拍平，通过构造一个宽表来存储你的数据，或者需要将你的数据通过逗号分隔等形式拥挤的存储在一个字段中，每次从数据库写入和读取数据都需要进行序列化和反序列化的操作。

Elasticsearch是面向文档的，能够直接将复杂的对象进行存储，同时还能对复杂数据结构中的各个字段建立索引来让它能够被高效的检索到。在使用Elasticsearch的过程中，你建立索引的对象、搜索的对象、排序的对象以及筛选的对象都是文档，而不是行列格式的关系型数据，这是ES和其他关系型数据库最大的不同之一，以及为什么ES能够提供复杂的全文搜索。

ElasticSearch使用JSON (JavaScript Object Notation) 作为文档的存储结构。目前绝大多数语言都能友好地支持JSON格式数据的转化与传输，也是大多数NoSQL类型数据库的存储标准。

一条注册用户信息的JSON文档如下：

{
    "email": "josiah@zhao.com",
    "name": "josiah",
    "info": {
        "bio": "工期短、质量好、成本低，这三项里面你最多只能同时做到两项", 
        "age": 25,
        "interests": [ "游泳", "钢琴" ]
    },
    "login_time": "2022/01/01" 
}

可以看到，虽然用户的原始信息有嵌套，数组和日期等相对复杂的结构，但是通过JSON的格式进行读写与展示就会容易很多。远比使用关系型数据库存储考虑如何将复杂结构拍平存储转化要简单的多。

2 索引的概念

在ElasticSearch中，每一个文档数据有一个"类型" (type) ，type是属于"索引" (index) 。他们的关系和关系型数据库相比如下：

关系型数据库 (如MySQL) ：数据库 (Database) => 数据表 (Table) => 行 (Row) => 列 (Column)
ElasticSearch：索引 (Index) => 类型 (Type) => 文档 (Document) => 属性 (Field)

注意，在V2.X中，一个Index的类型可以有多个，但是在V7.0以及之后的版本中Type被废弃了。一个Index中只有一个默认的Type，即 _doc。

和索引相关的几个概念。

索引 (Index)

如上文所述，名词的索引就是好比数据库，用来存储各个文档。

对文档建索引 (Index)

对一个文档建索引，就是将文档写入一个用来存储文档的索引，就好比是SQL的insert语句一样。

倒排索引 (Inverted index)

好比关系型数据库能够在字段上建立B-tree索引一样，来提升字段的查询效率。ElasticSearch和Lucene也使用一种数据库来加速文档字段的搜索，这个数据结构就叫做"倒排索引"。在默认的情况下，ElasticSearch会对文档中的所有字段都建立倒排索引。

3 用户数据存储场景实例

现在，我们要对一批用户数据"建索引"，需要满足如下的要求：

允许每一条用户数据存储多个标签，数字和文本
可以获取任意用户的完整信息
允许结构化条件搜索，比如搜索年龄大于25岁的用户
允许简单的全文搜索和复杂的短语搜索
可以将匹配搜索词的内容进行高亮标记
可以在数据上做统计分析

3.1 对文档建立索引

我们使用下面的三个curl请求对3个用户建立索引。

其中:

“my_user_list” 就是索引的名称
“_doc” 是索引的类型(如上文所述，7.0之后类型固定只能是_doc)
“_doc” 之后的数字是文档的唯一标识，我们分别写入了id为1,2,3的三个用户文档数据
“-d” 之后的JSON格式数据是录入的用户数据，分别是张三，李四和王五

我们可以看到，向ElasticSearch的索引中写入数据，不需要对索引做任何的初始化，ElasticSearch会自动感知数据的每一个字段，自动初始化索引的类型，自动建立倒排索引等等；除非特殊情况，不需要用户再做任何的初始化。

curl -H "Content-Type: application/json" -XPOST 'http://localhost:9200/my_user_list/_doc/1' -d '
{
    "name": "张三",
    "info": {
        "bio": "工期短、质量好、成本低，这三项里面你最多只能同时做到两项", 
        "age": 25,
        "interests": [ "游泳", "钢琴" ]
    },
    "login_time": "2022/01/01" 
}
'

curl -H "Content-Type: application/json" -XPOST 'http://localhost:9200/my_user_list/_doc/2' -d '
{
    "name": "李四",
    "info": {
        "bio": "钱多、事少、离家近，这三项里面你最多只能同时做到两项", 
        "age": 22,
        "interests": [ "篮球", "钢琴" ]
    },
    "login_time": "2022/02/01" 
}
'

curl -H "Content-Type: application/json" -XPOST 'http://localhost:9200/my_user_list/_doc/3' -d '
{
    "name": "王五",
    "info": {
        "bio": "提高效率、降低成本、满足定制，这三项里面你最多只能同时做到两项", 
        "age": 21,
        "interests": [ "游泳", "羽毛球" ]
    },
    "login_time": "2022/03/01" 
}
'