关于ElasticSearch的那些事

最新推荐文章于 2023-03-13 10:25:26 发布

被阿瓦达啃大瓜的狗

最新推荐文章于 2023-03-13 10:25:26 发布

阅读量364

点赞数

分类专栏：笔记文章标签： elasticsearch

本文链接：https://blog.csdn.net/qq_46012192/article/details/117265017

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

ElasticSearch相关概念：

文字有点多，想详细了解就看下面就够了。

小提示：目前市场上开放源代码的最好全文检索引擎工具包就属于 Apache 的 Lucene了。但是 Lucene 只是一个工具包，它不是一个完整的全文检索引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。目前以 Lucene 为基础建立的开源可用全文搜索引擎主要是 Solr 和 Elasticsearch。Solr 和 Elasticsearch 都是比较成熟的全文搜索引擎，能完成的功能和性能也基本一样。但是 ES 本身就具有分布式的特性和易安装使用的特点，而 Solr 的分布式需要借助第三方来实现，例如通过使用 ZooKeeper 来达到分布式协调管理。不管是 Solr 还是 Elasticsearch 底层都是依赖于 Lucene，而 Lucene 能实现全文搜索主要是因为它实现了倒排索引的查询结构。

ElasticSearch是面向文档，（可以把文档看成一条记录），

ElasticSearch->indices(索引库)->Types（多个表）->Documents（文档相当于记录）->Fields（字段）

1.索引indices

一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索

引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母的），并且当我们要对对应于这

个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。在一个集群中，可以定义任意多的索

引。

2.类型type

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来

定。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运营一个博客平台并且将你所有的数

据存储到一个索引中。在这个索引中，你可以为用户数据定义一个类型，为博客数据定义另一个类型，当然，也可

以为评论数据定义另一个类型。

3.字段field

相当于是数据表的字段，对文档数据根据不同属性进行的分类标识

4.映射mapping

mapping是处理数据的方式和规则方面做一些限制，如某个字段的数据类型、默认值、分析器、是否被索引等等，

这些都是映射里面可以设置的，其它就是处理es里面数据的一些使用规则设置也叫做映射，按着最优规则处理数据

对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射才能对性能更好。

5. 文档 document

一个文档是一个可被索引的基础信息单元。比如，你可以拥有某一个客户的文档，某一个产品的一个文档，当然，

也可以拥有某个订单的一个文档。文档以JSON（Javascript Object Notation）格式来表示，而JSON是一个到处存

在的互联网数据交互格式。

在一个index/type里面，你可以存储任意多的文档。注意，尽管一个文档，物理上存在于一个索引之中，文档必须

被索引/赋予一个索引的type。

6.集群

一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能。一个集群由

一个唯一的名字标识，这个名字默认就是“elasticsearch”。这个名字是重要的，因为一个节点只能通过指定某个集

群的名字，来加入这个集群

7.节点node

个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角色的名字，这个名字会在启动的

时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对

应于Elasticsearch集群中的哪些节点。

一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫

做“elasticsearch”的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，

它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。

在一个集群里，只要你想，可以拥有任意多个节点。而且，如果当前你的网络中没有运行任何Elasticsearch节点，

这时启动一个节点，会默认创建并加入一个叫做“elasticsearch”的集群。

8.分片和复制 shards&replicas

一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任

一节点都没有这样大的磁盘空间；或者单个节点处理搜索请求，响应太慢。为了解决这个问题，Elasticsearch提供

了将索引划分成多份的能力，这些份就叫做分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每

个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。分片很重要，主

要有两方面的原因： 1）允许你水平分割/扩展你的内容容量。 2）允许你在分片（潜在地，位于多个节点上）之上

进行分布式的、并行的操作，进而提高性能/吞吐量。

至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，

这些都是透明的。

在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因

消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分

片的一份或多份拷贝，这些拷贝叫做复制分片，或者直接叫复制。

复制之所以重要，有两个主要原因：在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分

片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。扩展你的搜索量/吞吐量，因为搜索可以

在所有的复制上并行运行。总之，每个索引可以被分成多个分片。一个索引也可以被复制0次（意思是没有复制）

或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分

片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你

事后不能改变分片的数量。

默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个复制，这意味着，如果你的集群中至少有两个节

点，你的索引将会有5个主分片和另外5个复制分片（1个完全拷贝），这样的话每个索引总共就有10个分片

9.Near Realtime (NRT)近实时：

数据提交索引后，立马就可以搜索到。

使用postman创建索引

postman：开源网页调试工具。

成功消息：
{

“acknowledged”: true,

“shards_acknowledged”: true,

“index”: “postmantest”

}

建立第一个索引：
http://127.0.0.1:9200/postmantest


```java
{
  "mappings":{
      "properties":{
        "id":{
          "type":"long",
          "store":**true**
        },
        "title":{
          "type":"text",
          "store":**true**,
          "index":**true**,
          "analyzer":"standard"
        },
        "content":{
          "type":"text",
          "store":**true**,
          "index":**true**,
          "analyzer":"standard"
        }
      }
  }
}


使用postman设置mapping映射

```sql
{
  "mappings":{
      "properties":{
        "id":{
          "type":"long",
          "store":**true**
        },
        "title":{
          "type":"text",
          "store":**true**,
          "index":**true**,
          "analyzer":"standard"
        },
        "content":{
          "type":"text",
          "store":**true**,
          "index":**true**,
          "analyzer":"standard"
        }
      }
  }
}

http://127.0.0.1:9200/postmantest/hello/_mappings?include_type_name=true

除非include_type_name参数设置为true，否则不能在放置映射请求中提供类型。（除非include_type_name参数设置为true，否则不能在放置映射请求中提供类型）。

向索引库中添加文档

使用postman:

{
    "id":12,
    "title":"我建的文档",
    "content":"文档的内容"

}

在这里插入图片描述
查看：

_id才是文档id，是es自动添加，相当于主键，可以根据这个对文档增删改查的一些操作，可以设置主键：

http://localhost:9200/testindex/chen/2

在这里插入图片描述

左边可以根据字段过滤，可以自己去试试。

使用head向索引库添加文档：
上图：

删除文档操作：在postman里：

此时_id为2 的记录被删除

使用head删除：
http://localhost:9200/testindex/chen/mz7vo3kBkAw3Mx4MyS3b
在这里插入图片描述

在这里插入图片描述
修改文档：利用postman直接修改即可
查询文档：
已有的数据：

根据id查询请求方法是get：带上主键查找即可
根据关键词进行查询
在这里插入图片描述
查询：queryString查询：
url: post http://localhost:9200/testindex/chen/_search
请求体：

{
    "query":{
        "query_string":{
            "default_field":"title",
            "query":"考试"
        }
    }
}

postman截图：
在这里插入图片描述
先对字符串进行分词，再在默认的搜索域中进行查询。

使用head进行基本查询：
在这里插入图片描述

match_all:查询所有
查询方式：
term:关键词查询
range：范围查询
fuzzy:模糊查询
wildcard：通配符查询
prefix:前缀查询

多试试就废啦~

使用head进行复合查询：
请求方式是POST加上_search输入查询语句进行查询即可，就和postman差不多。
在这里插入图片描述
查看分析器的分词效果：
标准分词器：
ES默认自带的分析器，是标准分词器，针对英文好使，但是针对中文，只能把汉字一个个拆分，不符合中文插叙需求。

二、IK分词器
IKAnalyzer是一个开源的，基于java开发的轻量级的中文分词工具包。ES默认没有携带IK分词器，需要下载，下载地址：
https://github.com/medcl/elasticsearch-analysis-ik/releases
在这里插入图片描述

ik_smart 为最少切分，ik_max_word为最细粒度划分

ES集群是一个 P2P类型(使用 gossip 协议)的分布式系统，除了集群状态管理以外，其他所有的请求都可以发送到集群内任意一台节点上，这个节点可以自己找到需要转发给哪些节点，并且直接跟这些节点通信。所以，从网络架构及服务配置上来说，构建集群所需要的配置极其简单。在 Elasticsearch 2.0 之前，无阻碍的网络下，所有配置了相同 cluster.name 的节点都自动归属到一个集群中。2.0 版本之后，基于安全的考虑避免开发环境过于随便造成的麻烦，从 2.0 版本开始，默认的自动发现方式改为了单播(unicast)方式。配置里提供几台节点的地址，ES 将其视作 gossip router 角色，借以完成集群的发现。由于这只是 ES 内一个很小的功能，所以 gossip router 角色并不需要单独配置，每个 ES 节点都可以担任。所以，采用单播方式的集群，各节点都配置相同的几个节点列表作为 router 即可。集群中节点数量没有限制，一般大于等于2个节点就可以看做是集群了。一般处于高性能及高可用方面来考虑一般集群中的节点数量都是3个及3个以上。

集群的相关概念

集群 cluster
一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能。一个集群由一个唯一的名字标识，这个名字默认就是“elasticsearch”。这个名字是重要的，因为一个节点只能通过指定某个集群的名字，来加入这个集群
节点 node
一个节点是集群中的一个服务器，作为集群的一部分，它存储数据，参与集群的索引和搜索功能。和集群类似，一个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角色的名字，这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做“elasticsearch”的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。在一个集群里，只要你想，可以拥有任意多个节点。而且，如果当前你的网络中没有运行任何Elasticsearch节点，这时启动一个节点，会默认创建并加入一个叫做“elasticsearch”的集群。
分片和复制 shards&replicas
一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间；或者单个节点处理搜索请求，响应太慢。为了解决这个问题，Elasticsearch提供了将索引划分成多份的能力，这些份就叫做分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。分片很重要，主要有两方面的原因： 1）允许你水平分割/扩展你的内容容量。 2）允许你在分片（潜在地，位于多个节点上）之上进行分布式的、并行的操作，进而提高性能/吞吐量。至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，这些都是透明的。在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片，或者直接叫复制。复制之所以重要，有两个主要原因：在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。扩展你的搜索量/吞吐量，因为搜索可以在所有的复制上并行运行。总之，每个索引可以被分成多个分片。一个索引也可以被复制0次（意思是没有复制）或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你事后不能改变分片的数量。默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个复制，这意味着，如果你的集群中至少有两个节点，你的索引将会有5个主分片和另外5个复制分片（1个完全拷贝），这样的话每个索引总共就有10个分片。

被阿瓦达啃大瓜的狗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
关于ElasticSearch的那些事

ElasticSearch相关概念：小提示：目前市场上开放源代码的最好全文检索引擎工具包就属于 Apache 的 Lucene了。但是 Lucene 只是一个工具包，它不是一个完整的全文检索引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。目前以 Lucene 为基础建立的开源可用全文搜索引擎主要是 Solr 和 Elasticsearch。Solr 和 Elasticsearch 都是比较成熟的全文搜索引
复制链接

扫一扫