Fluent Bit 日志分析

喝醉酒的小白

于 2025-05-30 11:52:02 发布

阅读量800

点赞数 18

分类专栏： K8s 文章标签：组件

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/148335369

版权

K8s 专栏收录该内容

323 篇文章

订阅专栏

目录标题

从你提供的 Fluent Bit 日志来看，日志数据在发送到 Elasticsearch 的过程中出现了错误。我们来逐项分析报错信息：

🔍 错误关键信息分析

[engine] failed to flush chunk ...
[output:es:es_log] HTTP status=500 URI=/_bulk
response: {"error":{"root_cause":[{"type":"json_parse_exception","reason":"Invalid UTF-8 start byte 0xfd"}],...}

❗ 关键错误：

json_parse_exception
Invalid UTF-8 start byte 0xfd

这表示 Fluent Bit 在通过 _bulk 接口将日志数据发送到 Elasticsearch 时，ES 无法正确解析 JSON 数据的某一部分，因为它包含了 非法的 UTF-8 字节（0xfd）。

📌 可能原因

日志中包含非法的 UTF-8 字符
- 某些日志源（如来自容器、数据库、或外部系统）输出的日志并非严格 UTF-8 编码，可能是 GBK、Latin-1、或者是二进制乱码。
- Elasticsearch 要求 _bulk 接口的数据必须是 合法 JSON 且 UTF-8 编码。
Fluent Bit 未正确处理编码或未启用字符转义
- 默认情况下，Fluent Bit 只将日志按原样转发。如果输入的编码不对，它不会自动转换成 UTF-8。
- 如果启用了 storage.backlog，意味着这个 chunk 是失败重试过的，说明这是持续问题。

🛠️ 解决建议

✅ 1. 启用 UTF-8 校验和清洗非法字符

你可以在 Fluent Bit 配置中添加如下过滤器，以确保输出到 ES 的数据是合法 UTF-8：

[FILTER]
    Name modify
    Match *
    Condition Key_Value_Key_Match log *
    Encode    log utf-8:replace

或者使用 lua 脚本过滤非法字符：

[FILTER]
    Name    lua
    Match   *
    script  sanitize_utf8.lua
    call    sanitize

sanitize_utf8.lua 示例：

function sanitize(tag, timestamp, record)
    if record.log then
        record.log = string.gsub(record.log, "[^\32-\126]", "")
    end
    return 1, timestamp, record
end