分布式日志收集系统--Flume（简单介绍） -CSDN博客

本文链接：https://blog.csdn.net/happy_hound/article/details/148309233

Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。

参考网址：Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了

Flume技术文章大纲

Flume基础介绍

定义与背景
Apache Flume是一个分布式、可靠且可用的系统，用于高效收集、聚合和移动大规模日志数据。设计初衷是解决海量日志数据的传输问题，特别适合日志密集型应用场景。
核心特性
支持高吞吐量、故障转移和恢复机制；提供可扩展的数据流模型；允许自定义数据源（Source）、通道（Channel）和接收端（Sink）。
适用场景
日志聚合、事件流数据传输、实时数据采集（如社交媒体、传感器数据）。

Flume架构解析

三大核心组件
- Source：数据输入源（如Avro、Netcat、Exec、Spooling Directory）。
- Channel：临时存储数据的管道（Memory Channel、File Channel、JDBC Channel）。
- Sink：数据输出目的地（如HDFS、Kafka、Logger）。
Agent与数据流
单个Flume Agent由Source-Channel-Sink构成，多个Agent可串联形成复杂数据流。数据通过Event对象（含Header和Body）传递。
可靠性机制
事务机制保障数据传输的原子性；Channel持久化（如File Channel）避免数据丢失。

Flume安装与配置

环境准备
需安装Java 8+，下载Flume二进制包（如apache-flume-1.9.0-bin.tar.gz），配置环境变量FLUME_HOME。
配置文件示例
定义Agent的Source、Channel和Sink，示例配置保存为example.conf：

# 定义Agent组件
agent1.sources = src1
agent1.channels = ch1
agent1.sinks = sink1

# 配置Netcat Source
agent1.sources.src1.type = netcat
agent1.sources.src1.bind = 0.0.0.0
agent1.sources.src1.port = 44444

# 配置Memory Channel
agent1.channels.ch1.type = memory
agent1.channels.ch1.capacity = 1000

# 配置Logger Sink
agent1.sinks.sink1.type = logger

# 绑定组件
agent1.sources.src1.channels = ch1
agent1.sinks.sink1.channel = ch1

启动命令
通过flume-ng脚本启动Agent：

bin/flume-ng agent --conf conf --conf-file example.conf --name agent1 -Dflume.root.logger=INFO,console

Flume实战代码示例

自定义Source
继承AbstractSource类实现自定义数据源：

public class CustomSource extends AbstractSource implements Configurable {
    @Override
    public void configure(Context context) {
        // 读取配置参数
    }
    
    @Override
    public void start() {
        // 启动数据采集逻辑
        Event event = EventBuilder.withBody("Custom Data".getBytes());
        getChannelProcessor().processEvent(event);
    }
}

HDFS Sink配置
将数据写入HDFS的Sink配置片段：

agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path = hdfs://namenode:8020/flume/events/%Y-%m-%d/
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.rollInterval = 30

拦截器应用
使用TimestampInterceptor添加事件时间戳：

agent1.sources.src1.interceptors = i1
agent1.sources.src1.interceptors.i1.type = timestamp

Flume高级功能

负载均衡与故障转移
配置多个Sink形成Sink组，通过load_balance或failover策略分配数据流。
与Kafka集成
使用Kafka Sink将数据发送至Kafka Topic：

agent1.sinks.sink1.type = org.apache.flume.sink.kafka.KafkaSink
agent1.sinks.sink1.kafka.topic = flume-events
agent1.sinks.sink1.kafka.bootstrap.servers = kafka-server:9092