全面解析Filebeat

lzyever

于 2024-04-16 06:44:25 发布

阅读量744

点赞数 19

分类专栏： elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/lzyever/article/details/137798140

版权

17 篇文章 1 订阅

订阅专栏

一、功能概述

Filebeat 的主要功能包括：

日志监控：实时监控指定路径下的日志文件或管道（如 /var/log 目录、Docker 日志），跟踪文件新增内容或滚动（rollover）情况。
日志读取：按照预定义的读取模式（如按行、按多行模式）读取日志事件，避免重复或遗漏。
数据发送：将收集到的日志数据发送至目标系统，如 Elasticsearch、Logstash、Kafka、Cloudwatch 等，支持直接发送或通过 HTTP/HTTPS 协议发送。
数据加工：在发送前对日志数据进行基础的处理，如添加元数据（如主机名、文件路径）、清理无关字符、提取特定字段等。
状态管理：记录已读取文件的位置信息，即使 Filebeat 进程重启，也能从上次中断处继续读取，保证数据完整性。

Prospector：Filebeat 的核心组件，负责发现和追踪日志文件。Prospector 可以配置为监视特定目录、单个文件或管道。当检测到新文件、文件更新或文件滚动时，Prospector 会启动对应的 Harvester。
Harvester：每个 Harvester 负责读取单个日志文件的内容。它按设定的读取模式（如按行）读取日志事件，并将事件发送给 Publisher。Harvester 记录已读取到的文件偏移量，以便在进程重启后能准确恢复。
Publisher：接收来自 Harvester 的日志事件，对其进行初步处理（如添加元数据、执行处理器链），并将事件批量发送到 Output。Publisher 采用内部队列来缓冲数据，以减少频繁发送请求。
Output：负责将日志事件发送到目标系统。Filebeat 提供多种内置 Output 插件，如 Elasticsearch、Logstash、Kafka、AWS CloudWatch Logs 等。用户可以根据需要选择或自定义 Output。

Filebeat 的配置通常通过 filebeat.yml 文件完成。关键配置项包括：

Inputs（输入）：
- Paths：指定要监视的日志文件或目录。
- Exclude_lines 和 Include_lines：通过正则表达式过滤日志行。
- Multiline：配置多行模式，将连续相关的日志行合并为一个事件。
Processors（处理器）：
- Add_host_metadata、Add_cloud_metadata：自动添加主机或云环境元数据。
- Decode_json_fields、Decode_csv：解析日志中的 JSON 或 CSV 数据。
- Drop_fields、Rename_fields：删除或重命名字段。
Outputs（输出）：
- Elasticsearch：配置连接 Elasticsearch 的地址、索引名、模板等。
- Logstash：指定 Logstash 服务器地址、端口和协议。
- Kafka：配置 Kafka 服务器地址、主题、生产者选项等。
Shipper（发送器）：
- Queue：设置内部队列的大小、过期时间等参数，控制数据缓冲和重试策略。
- Logging：配置 Filebeat 的日志级别、路径等。

Metrics：Filebeat 自带 metrics 输出，可将运行状态、性能统计数据发送至 Prometheus、Elasticsearch 等监控系统。
Status API：提供 RESTful API，用于查询 Filebeat 的运行状态、配置、Harvester 信息等。
Builtin dashboards：在 Kibana 中提供了 Filebeat 相关的仪表板，用于可视化监控 Filebeat 的运行状态和性能。