Elasticsearch的入门篇(二) - 部分概念

最新推荐文章于 2022-11-20 19:40:25 发布

云与海丶

最新推荐文章于 2022-11-20 19:40:25 发布

阅读量297

点赞数

分类专栏： Elasticsearch 文章标签： Elasticsearch ES 大数据搜索引擎

本文链接：https://blog.csdn.net/gaopengsui/article/details/79306326

版权

Elasticsearch 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

前面写了Elasticsearch是什么、使用场景、解决什么问题和为什么能解决那些问题，这章主要讲Elasticsearch的一些概念。
Elasticsearch概念文档来源于官方文档，添加一点个人理解。

Near Realtime(NRT:近实时)

Elasticsearch是一个接近实时的搜索平台。这意味着从索引文档的时间到可搜索的时间都有一个小的延迟（通常是一秒）。

Cluster(集群)

群集是一个或多个节点（服务器）的集合，它们一起保存整个数据，并在所有节点上提供联合索引和搜索功能。一个集群由一个唯一的名字来标识，默认是“elasticsearch”。这个名字很重要，因为如果节点设置为通过名字加入集群，节点只能是集群的一部分。

确保不要在不同的环境中重复使用相同的群集名称，否则可能会导致节点加入错误的群集。例如，您可以使用logging-dev，logging-stage以及logging-prod 开发，分段和生产集群。

请注意，有一个只有一个节点的集群是完全正确的。此外，您也可能拥有多个独立的群集，每个群集都有自己的唯一群集名称。

启动一个Elasticsearch节点，该节点会自动在相同网络寻找相同集群名称的节点组成集群。
可以通过配置文件elasticsearch.yml配置中配置集群中的名称(cluster.name)。

Node(节点)

节点是作为集群一部分的单个服务器，存储数据并参与集群的索引和搜索功能。就像一个集群一样，一个节点由一个名字来标识，默认情况下它是一个在启动时分配给节点的随机通用唯一标识符（UUID）。如果您不需要默认值，您可以定义任何您想要的节点名称。此名称对于管理目的非常重要，您需要确定网络中的哪些服务器对应于Elasticsearch群集中的哪些节点。

可以将节点配置为按集群名称加入特定的集群。默认情况下，每个节点都被设置为加入一个名为的集群elasticsearch，这意味着如果您在网络上启动了多个节点，并假设他们可以互相发现，那么它们将自动形成并加入一个名为的集群elasticsearch。

在单个群集中，您可以拥有任意数量的节点。此外，如果网络中没有其他Elasticsearch节点正在运行，则默认情况下启动单个节点将形成一个名为的新单节点群集elasticsearch。

Master(主节点)

启动一个Elasticsearch节点时，该节点会自动在相同网络寻找相同集群名称的节点组成集群，如果没有，则自动默认为主节点。如果有另外一个Elasticsearch节点已存在，则默认加入该集群，并成为从节点。如果有多个节点组成集群，主节点突然挂掉，剩余节点进行选举，选举出主节点。

Index(索引)

索引是具有相似特征的文档的集合。例如，您可以拥有客户数据的索引，产品目录的另一个索引以及订单数据的另一个索引。索引由名称标识（必须全部为小写），该名称用于在对索引文档进行索引，搜索，更新和删除操作时引用索引。

在单个群集中，您可以根据需要定义多个索引。

Type(类型)

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中，你可以为用户数据定义一个类型，为博客数据定义另一个类型，当然，也可以为评论数据定义另一个类型。

6.X版本一个Index只能定义一个Type，据官方所说在以后的版本将移除Type。

Document(文档)

文档是可被索引的基本信息单元。例如，您可以为单个客户提供文档，为单个产品提供另一个文档，为单个订单提供另一个文档。这个文档是用JSON（JavaScript Object Notation）表示的，它是一个无处不在的互联网数据交换格式。

在索引/类型中，您可以根据需要存储多个文档。请注意，尽管文档实际上驻留在索引中，但实际上文档必须被索引/分配给索引内的类型。

Shards & Replicas(碎片和副本)

索引可能潜在地存储大量数据，这些数据可能会超出单个节点的硬件限制。例如，占用1TB磁盘空间的十亿份文档的单个索引可能不适合单个节点的磁盘，或者可能太慢而无法单独为来自单个节点的搜索请求提供服务。

为了解决这个问题，Elasticsearch提供了将索引细分为多个碎片的能力。当你创建一个索引时，你可以简单地定义你想要的碎片数量。每个分片本身都是一个功能齐全且独立的“索引”，可以在集群中的任何节点上进行托管。

分拆是重要的两个主要原因：

它允许您水平分割/缩放您的内容量
它允许您跨越分片（可能在多个节点上）分发和并行化操作，从而提高性能/吞吐量
分片如何分布的机制以及文档如何聚合回搜索请求完全由Elasticsearch管理，对用户来说是透明的。

在任何时候都可能出现故障的网络/云环境中，非常有用并强烈建议有一个故障切换机制，以防碎片/节点以某种方式脱机或因任何原因而消失。为此，Elasticsearch允许您将索引分片的一个或多个副本分成所谓的副本分片或副本。

复制很重要，主要有两个原因：

它在碎片/节点失败的情况下提供高可用性。由于这个原因，重要的是要注意，副本分片永远不会被分配在与从其复制的原始/主分片相同的节点上。
它允许您扩展您的搜索量/吞吐量，因为搜索可以在所有副本上并行执行。
总而言之，每个索引可以分成多个碎片。索引也可以被复制为零（意味着没有复制品）或更多次。一旦被复制，每个索引将具有主要碎片（从中复制的原始碎片）和副本碎片（主要碎片的副本）。在创建索引时，可以为每个索引定义分片和副本的数量。创建索引之后，您可以随时更改动态副本的数量，但不能随意更改碎片的数量。

默认情况下，Elasticsearch中的每个索引都分配了5个主分片和1个副本，这意味着如果您的集群中至少有两个节点，则索引将包含5个主分片和另外5个副本分片（1个完整副本）每个索引10个碎片。

每个Elasticsearch分片是一个Lucene索引。您可以在单个Lucene索引中拥有最大数量的文档。截止到LUCENE-5843，限制是2,147,483,519（= Integer.MAX_VALUE - 128）文件。您可以使用_cat/shardsAPI 监视分片大小。

云与海丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch的入门篇(二) - 部分概念

前言前面写了Elasticsearch是什么、使用场景、解决什么问题和为什么能解决那些问题，这章主要讲Elasticsearch的一些概念。 Elasticsearch概念文档来源于官方文档，添加一点个人理解。Near Realtime(NRT:近实时)Elasticsearch是一个接近实时的搜索平台。这意味着从索引文档的时间到可搜索的时间都有一个小的延迟（通常是一秒）。...
复制链接

扫一扫

专栏目录