03-Elasticsearch相关概念了解

最新推荐文章于 2024-07-25 19:14:35 发布

软件开发初学者

最新推荐文章于 2024-07-25 19:14:35 发布

阅读量131

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/u011743790/article/details/105881804

版权

elasticsearch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 关系数据库与Elasticsearch对比

关系数据库	Elasticsearch
数据库（database）	索引（indexs）
表（tables）	类型（types）
行（rows）	文档（documents）
字段（columns）	字段（fields）

elasticsearch是面向文档的，数据在其中以JSON形式存储。
elasticsearch（集群）中可以包含多个索引，每个索引中可以包含多个类型，每个类型下又包含多个文档，每个文档中又包含多个字段。

1.1 物理设计

elasticsearch在后台把每个索引划分成多个分片，每个分片可以在集群中的不同服务器间迁移。
在这里插入图片描述
注：一个节点就是一个集群！默认的集群名称就是elasticsearch！

1.2 逻辑设计

一个索引类型中，包含多个文档，比如说文档1，文档2。当我们索引一篇文档时，可以通过这样的一个顺序找到它：索引 > 类型 > 文档ID，通过这个组合我们就能索引到某个具体的文档。

2 相关概念解析

2.1 文档（document）

因为elasticsearch是面向文档的，那么意味着索引和搜索数据的最小单位是文档。elasticsearch中文档有如下几个重要属性。

文档以JSON格式来表示。
自我包含，一个文档同时包含字段和字段对应的值，也就是同时包含key:value。
层次型的，文档以JSON格式来表示的JSON对象，可实现复杂的逻辑实体。
灵活结构，文档不依赖预先定义的模式，可以很灵活的动态添加或忽略一个字段。
- 文档中每个字段都是有类型的，elasticsearch会保存字段和类型之间的映射及其他的设置。

2.2 类型（type）

类型是文档的逻辑容器，就像关系型数据库一样，表格是行的容器。类型中对于字段的定义称为映射，例如name映射为字符串类型。

elasticsearch会自动的将新字段加入映射，根据值来猜测类型，有时候不准确。
最安全的方式就是提前定义好所需要的映射，防止出现问题。

2.3 索引（index）

索引是映射类型的容器，elasticsearch中的索引是一个非常大的文档集合。索引存储了映射类型的字段和其他设置。然后它们被存储到了各个分片上了。

2.3.1 节点和分片工作方式

在这里插入图片描述
注：新建索引时，默认的分片数是5个。

一个集群至少有一个节点，而一个节点就是一个elasticsearch进程，节点可以有多个索引。默认的创建索引时，索引有5个分片（primary shard，又称主分片）构成的。每一个主分片会有一个副本（replica shard，又称复制分片）。
在这里插入图片描述
注：上图有3个节点的集群，可以看到主分片和对应的复制分片都不会在同一个节点内，这样有利于某个节点挂掉了，数据也不至于丢失。实际上，一个分片是一个Lucene索引，一个包含倒排索引的文件目录。

2.3.2 倒排索引

elasticsearch使用的是一种称为倒排索引的结构，采用Lucene倒排索引作为底层。这种结构适用于快速的全文搜索。一个索引由文档中所有不重复的列表构成，对于每一个词，都有一个包含它的文档列表。

例1：现在有两个文档，每个文档包含如下内容

Study every day, good good up to forever  #文档1包含的内容
To forever, study every day, good good up #文档2包含的内容

为了创建倒排索引，我们首先要将每个文档拆分成独立的词（或称为词条或者tokens）,然后创建一个包含所有不重复的词条的排序列表，然后列出每个词条出现在哪个文档。

term	doc_1	doc_2
Study	√	×
To	×	×
every	√	√
forever	√	√
day	√	√
study	×	√
good	√	√
every	√	√
to	√	×
up	√	√

现在搜索 to forever，只需要查看包含每个词条的文档。

term	doc_1	doc_2
forever	√	√
to	√	×
匹配数	2	1

2.3.3 分片和复制（shards & replicas）

一个索引可以存储超出单个节点硬件限制的大量数据。如果单个节点数据量过大，搜索时响应会太慢。Elasticsearch提供了分片能力，将索引划分成多份。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。
分片的重要性
- 允许水平分割/扩展内容的容量
- 允许在分片之上进行分布式的、并行的操作，进而提高性能/吞吐量
在一个网络/云的环境中，失败随时发生，在某个分片/节点处于离线状态，或者消失了。这种情况下，Elasticsearch允许创建分片的一份或多份拷贝，这些拷贝叫做复制分片或者直接叫复制。
- 在分片/节点失败的情况下，提供了高可用性（复制分片与原分片不会置于同一个节点上）。
- 扩展搜索量/吞吐量，因为搜索可以在所有的复制上并行运行。

软件开发初学者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
03-Elasticsearch相关概念了解

1 关系数据库与Elasticsearch对比关系数据库Elasticsearch数据库（database）索引（indexs）表（tables）类型（types）行（rows）文档（documents）字段（columns）字段（fields）elasticsearch是面向文档的，数据在其中以JSON形式存储。elasticsearch...
复制链接

扫一扫

专栏目录