Elasticsearch的这几个概念你还不知道啥意思呢？

最新推荐文章于 2022-05-11 18:30:45 发布

【原】编程界的小学生

最新推荐文章于 2022-05-11 18:30:45 发布

阅读量329

点赞数

分类专栏： # ELK精讲文章标签： elasticsearch java 大数据 elk 数据库

本文链接：https://blog.csdn.net/ctwctw/article/details/117196194

版权

ELK精讲专栏收录该内容

10 篇文章 3 订阅

订阅专栏

编程界的小学生

一、node
- 1、核心概念
- 2、node种类
二、shard
三、index
四、type
五、document
六、field
七、mapping
八、DSL语句
九、贯穿全文的总结

一、node

1、核心概念

节点。一个ES实例就是一个node，本质上就是一个Java进程，但并不是说一台机器就是一个node，因为一台机器可以运行多个ES实例，也就是多个Java进程。
每个node都有名称，通过配置文件elasticsearch.yml里的node.name属性指定。
每个node启动后，都会自动分配一个UID放到data目录下。
多个Node凑成一个集群。

2、node种类

master node

主节点，负责索引的创建与删除以及决定shard被分到哪个node上。

data node

保存shard以及shard上的全部数据，由master node决定如何把分片分发到数据节点上。

coordinating node

协调节点
1.负责路由请求到正确的节点，如创建索引的请求需要路由到 Master 节点
2.也负责汇集各个shard返回的结果，比如统计一批数据，这批数据在不同shard上，最终会将结果返回到协调节点上统一处理返回给client
3.所有节点默认都是Coordinating Node。

其它节点类型，感兴趣的自行Google

二、shard

1、啥意思

分片，每个shard都可以理解成是一个lucene实例，主要负责搜索分析和倒排索引。

2、种类

Primary Shard
Replica Shard

3、Primary Shard

用于解决数据水平扩展的问题，通过主分片可以将数据分部到集群内的所有node上，一个数据（document）只能落到一个主分片上，但是可能落到多个副分片上，因为副分片是备份分片，用于高可用和提升读取吞吐量的。

4、Replica Shard

用于解决数据高可用的问题的，是主分片的拷贝，好比主从复制一样，副分片可以提高服务可用性也可以提高读取的吞吐量。

5、Shard的个数设定

ES7.0之前，创建一个index默认会为这个index创建5个PrimaryShard和5个ReplicaShard（每个PrimaryShard都有一个ReplicaShard），但是ES7.0开始个数从5个变成了1个。
主分片在索引创建的时候指定，创建完成后后续不允许修改个数，除非Reindex（重建索引）。
副本分片数可以随时动态调整，增加个数还能再一定程度上提高服务的可用性和读取吞吐量。
分片设置过小会导致单个分片的数据量太大，影响性能，而后续又无法动态修改主分片数，分片设置过多时，会影响搜索结果的相关性打分，影响统计结果的准确性，数据量达不到那么大的时候也造成资源浪费，到底划分多少合适后面单独出文章。

6、shard自动负载均衡

6.1、概念

ES会自动在nodes上为我们做shard的负载均衡。

实现高可用最少需要2个node，因为Primary Shard和Replica Shard不能同时存到同一个node上，否则这个node挂了就单点故障了，不叫高可用。

6.2、画图说明

假设现在只有1个index，每个index有5个Primary Shard和5个Replica Shard。
假设我们只有一台node节点，那肯定这10个shard都在这一台node上
假设我们新增了一台node节点与之前那台凑成了集群。那么ES会自动将这个shard平分到两台node上，比如变成如下：

Anode：2个PrimaryShard+3个ReplicaShard（这3个是Bnode中3P的副本，这样可以保证高可用）
Bnode：3个PrimaryShard+2个ReplicaShard（这2个是Anode中2P的副本，这样可以保证高可用）

只有一个node的样子：
在这里插入图片描述
新增一个node，变成了两个node：

三、index

索引，包含一堆具有相似结构的document数据。可以粗糙理解成mysql的库的概念。

四、type

类型，ES7.0开始无需手动指定type，统一采取默认的type (名叫_doc)，相当于把type去掉了，会默认为我们生成。可以粗糙理解成mysql的表的概念，只是表名都叫_doc而已。

Elasticsearch7.0开始已经将type这个概念去掉了。
因为type的概念是错误的使用方式，毕竟在RDBMS中，表与表之间的数据是分割存储的，而ES中同一个索引的不同type数据最终是放在一起的，必须保证不同type之间同名field的类型一致，还不算其他乱七八糟的问题。设计上就不合理。
详情可以看官方blog：https://www.elastic.co/cn/blog/moving-from-types-to-typeless-apis-in-elasticsearch-7-0

五、document

文档，Elasticsearch中的最小数据单元，一般用JSON表示，理解成mysql里的一条数据。

六、field

字段，一个document里可包含多个field。也就是一行数据有多个字段，字段有字段类型，理解成MySQL的field。

七、mapping

理解成MySQL表的结构，也就是说包含表字段、字段类型等，其实里面还包含分词器设置等等，非常核心，后面单独搞一篇出来讲解。目前理解成MySQL表结构即可。

八、DSL语句

ES的语句，理解成SQL语句就行了。

九、贯穿全文的总结

每个ES实例就是一个node，每个node都有一堆自动负载均衡的shard，每个shard就是一个lucene实例，负责管理我们的“数据库”index和“数据行”document以及“表结构”mapping等信息。

【微信公众号】
在这里插入图片描述

【原】编程界的小学生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Elasticsearch的这几个概念你还不知道啥意思呢？

编程界的小学生一、node1、核心概念2、node种类二、shard1、啥意思2、种类3、Primary Shard4、Replica Shard5、Shard的个数设定6、shard自动负载均衡6.1、概念6.2、画图说明三、index四、type五、document六、field七、mapping八、DSL语句九、贯穿全文的总结一、node1、核心概念节点。一个ES实例就是一个node，本质上就是一个Java进程，但并不是说一台机器就是一个node，因为一台机器可以运行多个ES实例，也就是多个J
复制链接

扫一扫