ELK日志管理系统(原理篇2)


1 elasticsearch

1.1 elasticsearch简介

官网https://www.elastic.co/guide/en/elasticsearch/painless/7.6/
在这里插入图片描述

  • Elasticsearch 是一个开源的分布式搜索分析引擎,建立在一个全文搜索引擎库 Apache Lucene基础之上。在多台机器上启动多个 es 进程实例,组成了一个 es 集群;基本单位:索引

  • Elasticsearch 不仅仅是 Lucene,并且也不仅仅只是一个全文搜索引擎

    • 一个分布式的实时文档存储,每个字段可以被索引与搜索
    • 一个分布式实时分析搜索引擎
    • 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据
  • 基础模块

    • cluster:管理集群状态,维护集群层面的配置信息。
    • alloction:封装了分片分配相关的功能和策略。
    • discovery:发现集群中的节点,以及选举主节点。
    • gateway:对收到master广播下来的集群状态数据的持久化存储。
    • indices:管理全局级的索引设置。
    • http:允许通过JSON over HTTP的方式访问ES的API。
    • transport:用于集群内节点之间的内部通信。
    • engine:封装了对Lucene的操作及translog的调用。
  • elasticsearch应用场景

    • 信息检索
    • 日志分析
    • 业务数据分析
    • 数据库加速
    • 运维指标监控

1.2 es 写入数据的工作过程

  • 客户端选择一个 node 发送请求过去,这个 node 就是 coordinating node(协调节点)。
  • coordinating node (协调节点)对 document 进行路由,将请求转发给对应的 node(有 primary shard)。
  • 实际的 node 上的primary shard 处理请求,然后将数据同步到 replica node。
  • coordinating node(协调节点) 如果发现primary node 和所有 replica node 都搞定之后,就返回响应结果给客户端

在这里插入图片描述

1.3 es 读数据(过程)原理

可以通过 doc id 来查询,会根据 doc id 进行 hash,判断出来当时把 doc id 分配到了哪个 shard 上面去,从那个 shard 去查询

  • 客户端发送请求到任意一个 node,成为 coordinate node(协调节点)。
  • coordinate node(协调节点) 对 doc id进行哈希路由,将请求转发到对应的 node,此时会使用 round-robin 随机轮询算法,在 primary shard 以及其所有replica 中随机选择一个,让读请求负载均衡。
  • 接收请求的 node 返回 document 给 coordinate node(协调节点)。
  • coordinate node(协调节点) 返回 document 给客户端。

1.4 es删除/更新数据底层原理

(1)删除原理:如果是删除操作,commit 的时候会生成一个 .del 文件,里面将某个 doc 标识为 deleted 状态,那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了
(2)更新原理:如果是更新操作,就是将原来的 doc 标识为 deleted 状态,然后新写入一条数据。
buffer 每 refresh 一次,就会产生一个segment file,所以默认情况下是 1 秒钟一个 segment file,这样下来 segment file 会越来越多,此时会定期执行 merge。每次 merge 的时候,会将多个 segment file 合并成一个,同时这里会将标识为 deleted 的 doc 给物理删除掉,然后将新的 segment file 写入磁盘,这里会写一个 commit point,标识所有新的 segment file,然后打开 segment file 供搜索使用,同时删除旧的 segment file。

1.5 索引概念

  • 在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。
  • 索引提供指向存储在表的指定列中的数据值的指针,然后根据您指定的排序顺序对这些指针排序。数据库使用索引以找到特定值,然后顺指针找到包含该值的行。这样可以使对应于表的SQL语句执行得更快,可快速访问数据库表中的特定信息。
  • 索引是一种数据结构,它允许对它存储在其中的单词进行快速随机访问。当需要从大量文本中快速检索文本目标时,必须首先将文本内容转换成能够进行快速搜索的格式,以建立针对文本的索引数据结构,此即为索引过程

1.6 搜索过程

  • 获取内容(Acquire Content)
    由用户输入原始内容(Raw Content),然后由索引组件去获取内容(Acquire Content),是通过网络爬虫或其它方式来搜集需要索引的内容。获取到的内容需要剪切为小数据块,即文档(Document)
  • 建立文档(Build Document)
    通过Acquire Centent获取的原始内容需要转换为专用部件(文档)才能供搜索引擎使用。
    一般来说,一个网页、一个PDF文档、一封邮件或者一条日志信息都可以作为一个文档。文档由带“值(Value)”的"域(Field)"组成,例如标题(Title)、正文(body)、摘要(abstract)、作者(Author)和链接(url)等。不过,二进制格式的文档处理起来要麻烦一些,例如PDF文档。对于建立文档的过程来说有一个常见操作:向单个的文档和域中插入加权值,以便在搜索结果中对其进行排序。权值可在索引操作前静态生产,也可在搜索期间才动态生成。权值决定了其搜索相关度。
  • 文档索引(Idenx Document)
    在索引步骤中,文档将被加入到索引列表。

1.7 ES(elastic)工作过程

  • 为了将数据添加到ES,我们需要索引(index),索引是一个存储关联数据的地方。实际上,索引只是一个用来指定一个或多个分片的"逻辑命名空间"
    • 一个分片(shard)是一个最小级别"工作单元",它只是保存了索引中的所有数据的一部分,我们的文档存储在分片中,并且在分片中被索引,但是我们的应用程序不会直接与它们通信,取而代之的是,直接与索引通信。
    • 分片是ES在进群中分发数据的关键,可以把分片想想成数据的容器。文档存储在分片中,然后分片分配到集群中的节点上。当集群扩容或缩小,ES将会自动在节点间迁移分片,以使集群保持平衡。
    • 分片可以是主分片或者是复制分片,索引中的每个文档属于一个单独的主分片,所以主分片的数量决定了索引最多能存储多少数据。
    • 理论上主分片能存储的数据大小是没有限制的,限制取决于你实际的使用情况:硬件存储的大小,文档的大小和复杂度、如何索引和查询你的文档,以及你期望的响应时间
    • 复制分片只是主分片的一个副本,它可以防止硬件故障导致的数据丢失,同时可以提供请求,比如搜索或者从别的shard取回文档。
    • 当索引创建完成的时候,主分片的数量就固定了,但是复制分片的数量可以随时调整

1.8 倒排索引

在搜索引擎中,每个文档都有一个对应的文档 ID,文档内容被表示为一系列关键词的集合。

例如:文档 1 经过分词,提取了 20 个关键词,每个关键词都会记录它在文档中出现的次数和出现位置。那么,倒排索引就是关键词到文档 ID 的映射,每个关键词都对应着一系列的文件,这些文件中都出现了关键词

  • 倒排索引中的所有词项对应一个或多个文档
  • 倒排索引中的词项根据字典顺序升序排列

正排索引是从文档到关键字的映射(已知文档求关键字),倒排索引是从关键字到文档的映射(已知关键字求文档)

在这里插入图片描述

1.2 elasticsearch节点优化

节点角色:

  • Master:主要负责集群中索引的创建、删除以及数据的Rebalance等操作,三台以上。 Master不负责数据的索引和检索,所以负载较轻。当Master节点失联或者挂掉的时候,ES集群会自动从其他Master节点选举出一个Leader。
  • Data Node:主要负责集群中数据的索引和检索,一般压力比较大。
  • Coordinating Node:协调节点,做查询的。是原来的Client node的,主要功能是来分发请求和合并结果的。所有节点默认就是Coordinating node,且不能关闭该属性
  • Ingest Node:专门对索引的文档做预处理
    在生产环境下,如果不做角色划分的话,在高数据量,高并发的场景下集群容易出现脑裂等问题。

节点角色属性

  • node.master:这个属性表示节点是否具有成为主节点的资格注意:此属性的值为true,并不意味着这个节点就是主节点。 因为真正的主节点,是由多个具有主节点资格的节点进行选举产生的。
  • node.data:这个属性表示节点是否存储数据。
  • node.ingest: 是否对文档进行预处理。
  • search.remote.connect:是否禁用跨集群查询

生产集群中可以对这些节点的职责进行划分:

  • 建议集群中设置3台以上的节点作为master节点,这些节点只负责成为 主节点,维护整个集群的状态。
  • 再根据数据量设置一批data节点,这些节点只负责存储数据,后期提供 建立索引和查询索引的服务,这样的话如果用户请求比较频繁,这些节点 的压力也会比较大。
  • 所以在集群中建议再设置一批协调节点,这些节点只负责处理用户请求, 实现请求转发,负载均衡等功能。

节点需求

  • master节点:普通服务器即可(CPU、内存 消耗一般)
  • data节点:主要消耗磁盘、内存。
    • path.data: data1,data2,data3 这样的配置可能会导致数据写入不均匀,建议只指定一个数据路径,磁盘可以使 用raid0阵列,而不需要成本高的ssd。
  • Coordinating节点:对cpu、memory要求较高。

2.logstash数据采集

  • Logstash是一个开源的服务器端数据处理管道。比如排行榜、分段、筛选等预处理

  • logstash拥有200多个插件,能够同时从多个来源采集数据, 转换数据,然后将数据发送到您最喜欢的 “存储库” 中。(大多都是 Elasticsearch。)

  • Logstash管道有两个必需的元素,输入和输出,以及一个可选 元素过滤

  • 输入:采集各种样式、大小和来源的数据

    • Logstash 支持各种输入选择 ,同时从众多常用来源捕捉事件。
    • 能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、 数据存储以及各种 AWS 服务采集数据。

在这里插入图片描述

  • 过滤器:实时解析和转换数据

    • 数据从源传输到存储库的过程中,Logstash 过滤器能够解析各个事件, 识别已命名的字段以构建结构,并将它们转换成通用格式,以便更轻松、 更快速地分析和实现商业价值。
    • 利用 Grok 从非结构化数据中派生出结构
    • 从 IP 地址破译出地理坐标
    • 将 PII 数据匿名化,完全排除敏感字段
    • 简化整体处理,不受数据源、格式或架构的影响
  • 输出:选择您的存储库,导出您的数据

    • 尽管 Elasticsearch 是我们的首选输出方向,能够为我们的搜索 和分析带来无限可能,但它并非唯一选择。
    • Logstash 提供众多输出选择,您可以将数据发送到您要指定的地 方,

具体操作过程参考https://editor.csdn.net/md/?articleId=116372422

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值