理解ELK日志分析系统中的索引和分片

前言

最近学习ELK日志分析系统遇到了一个困扰:elastic创建的索引和分片该怎样理解?之前一直将分片理解为数据的备份,例如集群中的数据存储节点上可能会存在分片,这是不是就意味着数据在该节点上备份了一份?那么主分片和辅助分片又该如何理解?

索引概念

  • 关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。
  • 索引提供指向存储在表的指定列中的数据值的指针,然后根据您指定的排序顺序对这些指针排序。数据库使用索引以找到特定值,然后顺指针找到包含该值的行。这样可以使对应于表的SQL语句执行得更快,可快速访问数据库表中的特定信息。
  • 索引是一种数据结构,它允许对它存储在其中的单词进行快速随机访问。当需要从大量文本中快速检索文本目标时,必须首先将文本内容转换成能够进行快速搜索的格式,以建立针对文本的索引数据结构,此即为索引过程。

搜索过程

  • 获取内容(Acquire Content)
    由用户输入原始内容(Raw Content),然后由索引组件去获取内容(Acquire Content),是通过网络爬虫或其它方式来搜集需要索引的内容。获取到的内容需要剪切为小数据块,即文档(Document)
  • 建立文档(Build Document)
    通过Acquire Centent获取的原始内容需要转换为专用部件(文档)才能供搜索引擎使用。
    一般来说,一个网页、一个PDF文档、一封邮件或者一条日志信息都可以作为一个文档。文档由带“值(Value)”的"域(Field)"组成,例如标题(Title)、正文(body)、摘要(abstract)、作者(Author)和链接(url)等。不过,二进制格式的文档处理起来要麻烦一些,例如PDF文档。对于建立文档的过程来说有一个常见操作:向单个的文档和域中插入加权值,以便在搜索结果中对其进行排序。权值可在索引操作前静态生产,也可在搜索期间才动态生成。权值决定了其搜索相关度。
  • 文档索引(Idenx Document)
    在索引步骤中,文档将被加入到索引列表。

ES(elastic)工作过程

  • 为了将数据添加到ES,我们需要索引(index),索引是一个存储关联数据的地方。实际上,索引只是一个用来指定一个或多个分片的"逻辑命名空间"
  • 一个分片(shard)是一个最小级别"工作单元",它只是保存了索引中的所有数据的一部分,我们的文档存储在分片中,并且在分片中被索引,但是我们的应用程序不会直接与它们通信,取而代之的是,直接与索引通信。
  • 分片是ES在进群中分发数据的关键,可以把分片想想成数据的容器。文档存储在分片中,然后分片分配到集群中的节点上。当集群扩容或缩小,ES将会自动在节点间迁移分片,以使集群保持平衡。
  • 分片可以是主分片或者是复制分片,索引中的每个文档属于一个单独的主分片,所以主分片的数量决定了索引最多能存储多少数据。
  • 理论上主分片能存储的数据大小是没有限制的,限制取决于你实际的使用情况:硬件存储的大小,文档的大小和复杂度、如何索引和查询你的文档,以及你期望的响应时间
  • 复制分片只是主分片的一个副本,它可以防止硬件故障导致的数据丢失,同时可以提供请求,比如搜索或者从别的shard取回文档。
  • 当索引创建完成的时候,主分片的数量就固定了,但是复制分片的数量可以随时调整

可以这么理解:一份完整的数据可以分为许多个文档进行存储,每个文档可能存储不同的信息。文档存储在分片中,因此分片存储了我们索引中所有数据的一部分内容,也就是索引组件采集到的信息,因此一个完整的信息存在多个分片,这若干个分片分布式存储在了集群中不同的数据节点上,并且每个分片可以分为主分片和辅助分片,在这里,辅助分片相当于其对应主分片的副本,内容完全一致。

概括图

在这里插入图片描述

分片复制

  • 复制默认的值是sync(刷盘)。这将导致主分片得到复制分片的成功响应后才返回。
    • Linux sync命令用于数据同步,sync命令是在关闭Linux系统时使用的。
      Linux 系统中欲写入硬盘的资料有的时候为了效率起见,会写到 filesystem buffer 中,这个 buffer 是一块记忆体空间,如果欲写入硬盘的资料存于此 buffer 中,而系统又突然断电的话,那么资料就会流失了,sync 指令会将存于 buffer 中的资料强制写入硬盘中
  • 如果你设置replication为async,请求在主分片上被执行后就会返回给客户端。它依旧会转发给复制节点,单你将不知道复制节点成功与否。
  • 上面的这个选项不建议使用。默认的sync复制允许ES强制反馈传输。async复制可能会因为在不等待其他分片就绪的情况下发送过多的请求而使ES过载。

参考链接:https://blog.csdn.net/weixin_30768175/article/details/98867645.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值