ELK+Filebeat日志分析系统

最新推荐文章于 2024-09-04 17:49:26 发布

龙Llong

最新推荐文章于 2024-09-04 17:49:26 发布

阅读量566

点赞数

文章标签： elk 搜索引擎 elasticsearch 大数据全文检索

本文链接：https://blog.csdn.net/mcl914/article/details/129610583

版权

本文详细介绍了ELK(Elasticsearch, Logstash, Kibana)日志分析系统的组成、工作原理和部署步骤。通过ELK，可以实现日志的集中化管理、全文检索和数据可视化。文章涵盖了Elasticsearch的核心概念，如分片和副本，以及Logstash的数据收集和过滤功能。Kibana作为数据可视化工具，帮助用户直观地查看和分析日志数据。此外，还讨论了Filebeat在日志收集中的作用，以及如何结合使用Filebeat和Logstash来减轻Elasticsearch的写入压力。文章最后提供了ELK集群部署的具体操作，包括Elasticsearch、Logstash和Kibana的安装与配置。" 104665366,9324415,Tensorflow2.0实现Yolo v3关键解析,"['深度学习', '目标检测', 'Tensorflow', 'Yolo', '模型实现']

摘要由CSDN通过智能技术生成

一、ELK简介

ELK平台是一套完整的日志集中处理解决方案，将 ElasticSearch、Logstash 和 Kiabana 三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。

1、ElasticSearch

Elasticsearch 是基于Lucene(一个全文检索引擎的架构)开发的分布式存储检索引擎，用来存储各类日志。
Elasticsearch 是用 Java 开发的，可通过 RESTful Web 接口，让用户可以通过浏览器与 Elasticsearch 通信。
Elasticsearch是一个实时的、分布式的可扩展的搜索引擎，允许进行全文、结构化搜索，它通常用于索引和搜索大容量的日志数据，也可用于搜索许多不同类型的文档。

1.1 Elasticsearch核心概念

接近实时
集群化
节点
索引：索引(库)——>类型(表)——>文档(记录)
分片和副本

分片的两个最主要的原因

提高了扩展能力
提高了单机存存储上限
分布式并行跨分片操作，提高性能和吞吐量

分布式分片的机制和搜索请求的文档如何汇总完全是由elasticsearch控制的，这些对用户而言是透明的。

网络问题等等其它问题可以在任何时候不期而至，为了健壮性，强烈建议要有一个故障切换机制，无论何种故障以防止分片或者节点不可用。

副本也有两个最主要原因：

高可用性，以应对分片或者节点故障
分片副本要在不同的节点上
增加了读写性能，增大吞吐量。搜索可以并行在所有副本上执行。

2、Kiabana

Kibana 通常与 Elasticsearch 一起部署
Kibana 是 Elasticsearch 的一个功能强大的数据可视化 Dashboard
Kibana 提供图形化的 web 界面来浏览 Elasticsearch 日志数据，可以用来汇总、分析和搜索重要数据。

2.1 Kiababa主要功能

Elasticsearch无缝之集成
整合数据，复杂数据分析
让更多团队成员受益
接口灵活，分享更容易
配置简单，可视化多数据源
简单数据导出

3、Logstash

Logstash作为数据收集引擎。它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到用户指定的位置,一般会发送给 Elasticsearch。
Logstash 由 Ruby 语言编写，运行在 Java 虚拟机(JVM)上，是一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能，常用于日志处理。

3.1 LogStash

Shipper
Indexer
Broker
Search and Storage
Web Interface

首先数据通过Data Source源到input，input负责采集数据，采集数据后通过filter进行数据过滤，过滤后给Elasticsearch，然后Elasticsearch进行全文索引和存储，最后给kibana。

4、Filebeat

轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装 Filebeat，并指定目录与日志格式，Filebeat 就能快速收集数据，并发送给 logstash 进行解析，或是直接发给 Elasticsearch 存储，性能上相比运行于 JVM 上的 logstash 优势明显，是对它的替代。常应用于 EFLK 架构当中。

4.1 filebeat 结合 logstash 带来好处

通过 Logstash 具有基于磁盘的自适应缓冲系统，该系统将吸收传入的吞吐量，从而减轻 Elasticsearch 持续写入数据的压力
从其他数据源(例如数据库，S3对象存储或消息传递队列)中提取
将数据发送到多个目的地，例如S3，HDFS(Hadoop分布式文件系统)或写入文件使用条件数据流逻辑组成更复杂的处理管道

5、缓存/消息队列(redis、kafka、RabbitMQ等)

可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不丢失，还可以对整个架构进行应用解耦。

6、Fluentd

Fluentd是一个流行的开源数据收集器。由于 logstash 太重量级的缺点，Logstash 性能低、资源消耗比较多等问题，随后就有 Fluentd 的出现。
相比较 logstash，Fluentd 更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为 logstash 的一种替代方案，常应用于 EFK 架构当中。在 Kubernetes 集群中也常使用 EFK 作为日志数据收集的方案。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Fluentd，以便它在每个 Kubernetes 工作节点上都可以运行一个 Pod。它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到 Elasticsearch 集群，在该集群中对其进行索引和存储。

7、ELK日志服务器

提高安全性
集中存放日志
缺陷：对日志的分析困难

8、ELK日志处理步骤

将日志进行集中化管理
将日志格式化(Logstash)并输出到Elasticsearch
对格式化后的数据进行索引和存储(Elasticsearch)
前端数据的显示(Kibana)

二、为什么要使用ELK

日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误。
往往单台机器的日志我们使用grep、awk等工具就能基本实现简单分析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如：开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用 grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

三、完整日志系统基本特征

收集：能够采集多种来源的日志数据
传输：能够稳定的把日志数据解析过滤并传输到存储系统
存储：存储日志数据
分析：支持 UI 分析
警告：能够提供错误报告，监控机制

四、ELK的工作原理

首先，一共有三个组件，logstash负责日志收集，Elasticsearch用于日志存储和搜索，Kibana用于展示日志。

服务器通过TCP进行传输，Logstash组件进行日志收集(Logstash中：input(写入)、file beat(过滤)、output(输出))，将日志存入message，通过logstash进行数据过滤处理，格式化，然后将数据传输给Elasticsearch，Elasticsearch进行全文索引和存储，最后给kibana，由Kibana通过Web进行日志的图形化展示并且提供搜索入口。