ELK+Filebeat日志分析系统

敲代码敲来感觉了

已于 2023-04-11 16:02:27 修改

阅读量1.1k

点赞数

文章标签： elk elasticsearch 大数据

于 2023-04-11 15:59:23 首次发布

本文链接：https://blog.csdn.net/m0_74781555/article/details/130084648

版权

本文详细介绍了ELK（Elasticsearch、Logstash、Kibana）日志分析系统的组成、工作原理及部署过程，包括Elasticsearch的分布式特性、Logstash的数据处理、Kibana的可视化展示。此外，还提到了Filebeat作为轻量级日志收集器在ELK中的作用，以及ELFK（Filebeat+ELK）的部署流程。通过这个系统，可以实现日志的高效管理和分析。

摘要由CSDN通过智能技术生成

1.ELK是什么？

2.组件简介

2.3 其它组件缓存/消息队列（redis、kafka、RabbitMQ等）

2.部署 ElasticSearch 软件（在Node1、Node2节点上操作）

2.1 安装 elasticsearch-rpm 包

3.5 启动 Elasticsearch-head 服务

4.6 访问测试

5.部署 Kibana（在 node1 节点上操作）

5.1 安装 Kibana

5.5 将 Apache 服务器日志（访问的、错误的）添加到 ES 并通过 Kibana 显示

5.6 浏览器访问

八.部署Filebeat+ELK（ELFK）

2.安装 Filebeat

3.设置 Kibana 的主配置文件

4.在 Logstash 组件所在节点新建一个 Logstash 配置文件

九.问题补充

一.ELK基本介绍

1.ELK是什么？

ELK平台是一套完整的日志集中处理解决方案，将ElasticSearch、Logstash和Kiabana 三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。

2.组件简介

2.1 ELK组件介绍

2.2 ELFK组件介绍

上述组件中添加

2.3 其它组件
缓存/消息队列（redis、kafka、RabbitMQ等）

可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不丢失，还可以对整个架构进行应用解耦。

Fluentd

是一个流行的开源数据收集器。由于 logstash 太重量级的缺点，Logstash 性能低、资源消耗比较多等问题，随后就有 Fluentd 的出现。相比较 logstash，Fluentd 更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为 logstash 的一种替代方案，常应用于 EFK 架构当中。在 Kubernetes 集群中也常使用 EFK 作为日志数据收集的方案。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Fluentd，以便它在每个 Kubernetes 工作节点上都可以运行一个 Pod。
它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch 集群，在该集群中对其进行索引和存储。
4.使用ELK的原因
日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。

往往单台机器的日志我们使用grep、awk等工具就能基本实现简单分析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如∶ 开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。

一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

5.完整日志系统的基本特征
收集：能够采集多种来源的日志数据
传输：能够稳定的把日志数据解析过滤并传输到存储系统
存储：存储日志数据
分析：支持 UI 分析
警告：能够提供错误报告，监控机制

二.Elasticsearch的介绍

提供了一个分布式多用户能力的全文搜索引擎

Elasticsearch的核心：

1、接近实时（NRT）

Elasticsearch是一个接近实时的搜索平台，这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）

2、集群（cluster）

一个集群就是由一个或者多个节点组织在一起，它们共同持有你整个的数据，并一起提供索引和搜索功能。其中一个为主节点，这个主节点是可以通过选举产生的，并提供跨节点的联合索引和搜索功能。
集群有一个唯一性标示的名字，默认是Elasticsearch，集群的名字很重要，每个节点是基于集群名字加入到集群中的。因此，确保在不同的环境中使用不同的集群名字。
一个集群可以只有一个节点，建议在配置Elasticsearch时，配置成集群模式。
Elasticsearch具有集群机制，节点通过集群名称加入到集群中，同时在集群中的节点会有一个自己唯一的身份标识（自己的名称）
3、节点（node）

节点就是一台单一的服务器，是集群的一部分，存储数据并参与集群的索引和搜索功能。像集群一样，节点也是通过名字来标识，默认是在节点启动时随机分配的字符名。也可自己定义，名字很重要，在集群中用于识别服务器对应的节点
节点可以通过指定集群名字来加入到集群中。默认情况下，每个节点被设置成加入到Elasticsearch集群。如果启动了多个节点，假设能自动发现对方，他们将会自动组建一个名为Elasticsearch的集群。
4、索引（index）

一个索引就是一个拥有几分相似特征的文档的集合。
一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候。都要使用到这个名字。在一个集群中，可以定义任意多的索引。
5、类型（type）

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。
通常会为具有一组共同字段的文档定义一个类型。
6、文档（document）

一个文档是一个可被索引的基础信息单元
在一个index/type里面，只要你想，你可以存储任意多的文档。注意，虽然一个文档在物理上位于一个索引中，实际上一个文档必须在一个索引内被索引和分配一个类型
7、分片和副本（shards & replicas）也是es作为搜索引擎比较快的原因

实际情况下，索引存储的数据可能超过单个节点的硬件限制。为了解决这个问题，Elasticsearch提供将索引分成多个分片的功能。当在创建索引时，可以定义想要的分片数量。每一个分片就是一个全功能的独立的索引，可以位于集群中任何节点上。

分片的主要原因：

水平分割扩展，增大存储量
分布式并跨越分片操作，提高性能和吞吐量
分布式分片机制和搜索请求的文档如何火鬃完全是由Elasticsearch控制的，这些对用户是完全透明的。
为了健壮性，建议有一个故障切换机制，为此，Elasticsearch让我们将索引分片复制一份或多份，称之为分片副本
分片副本的原因：

高可用性，以应对分片或者节点故障。处于这个原因，分片副本要在不同的节点上
增大吞吐量，搜索可以并行在所有副本上执行
总之，每个索引可以被分成多个分片。一个索引可以被复制0次或者多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和副本的数量可以在索引创建的时候指定。在索引创建之后，你可以在指定任何时候动态的改变副本的数量，但是你事后不能改变分片的数量。

默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个副本，这意味着，如果你的集群中至少有两个节点，你的索引将会有5个主分片和另外的5个副本分片（一个完全拷贝），这样的话每个索引总共有10个分片。

8、相关概念在关系型数据库和ElasticSearch中的对应关系

三.Logstash的介绍

Logstash简介：

Logstash由JRuby语言编写，基于消息（message-based）的简单架构，并运行在java虚拟机（JVM）上。不同于分离的代理端（agent）或主机端（server），Logstash可配置单一的代理端与其他开源软件结合，以实现不同的功能。

是一款强大的数据处理工具、
可实现数据传输，格式处理，格式化输出
数据输入、数据加工(如过滤，改写等)以及数据输出
Logstash 命令常用选项：

常用插件：

input：收集源数据（访问日志、错误日志等）
Filter Plugin：用于过滤日志和格式处理
Output：输出日志
主要组件：

Shipper(日志收集)：负责监控本地日志文件的变化，及时把日志文件的最新内容收集起来。通常，远程代理端（agent）只需要运行这个组件即可
Indexer(日志存储)：负责接收日志并写入到本地文件
Broker(日志Hub)：负责连接多个Shipper和多个Indexer
Search and Storage：允许对事件进行搜索和存储
Web Interface：基于Web的展示界面
Logstash主机分类：

代理主机（agent host）：作为事件的传递者（Shipper），将各种日志数据发送至中心主机，只需运行Logstash代理程序
中心主机（central host）：可运行包括中间转发器（Broker）、索引器（Indexer）、搜索和存储器（Search and Storage）、Web界面端（Web Interface）在内的各个组件，以实现对日志数据的接收、处理和存储