Flume 使用总结

最新推荐文章于 2025-09-16 09:26:20 发布

原创

最新推荐文章于 2025-09-16 09:26:20 发布 · 5.4k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#flume

本文详细介绍了Flume这一分布式、可靠且高可用的日志采集框架，包括Flume的介绍、运行机制、系统结构图、实战案例以及使用时的注意事项。通过案例展示了Flume的安装部署、source、channel、sink组件的使用，并探讨了高可用配置如failover和load balance，以及日志分类采集等场景。

前言

在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：

1. 日志采集框架Flume

1.1 Flume介绍

1.1.1 概述

u Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

u Flume可以采集文件，socket数据包、文件夹等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中

u 一般的采集需求，通过对flume的简单配置即可实现

u Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

当前Flume有两个版本：

Flume 0.9X版本的统称Flume-og，

Flume1.X版本的统称Flume-ng。

由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

1.1.2 运行机制

1、 Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成

2、每一个agent相当于一个数据传递员[M1] ，内部有三个组件：

a) Source：采集源，用于跟数据源对接，以获取数据

b) Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据

c) Channel：angent内部的数据传输通道，用于从source将数据传递到sink

1.1.3 Flume采集系统结构图

1.1.3.1. 简单结构

单个agent采集数据

1.1.3.2. 复杂结构

多级agent之间串联

（1）第一种：2个agent串联

（2）第二种：多个agent的采集的数据进行汇总

（3）第三种：采集的数据可以下层到不同的系统中

1.2 Flume实战案例

1.2.1 Flume的安装部署

1、Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境

上传安装包到数据源所在节点上

然后解压 tar -zxvfapache-flume-1.6.0-bin.tar.gz

然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

2、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)

3、指定采集方案配置文件，在相应的节点上启动flume agent

先用一个最简单的例子来测试一下程序环境是否正常

1、先在flume的conf目录下新建一个文件

vi netcat-logger.conf

# 定义这个agent中各组件的名字

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# 描述和配置source组件：r1

a1.sources.r1.type = netcat

a1.sources.r1.bind = itcast01

a1.sources.r1.port = 44444

# 描述和配置sink组件：k1

a1.sinks.k1.type = logger

# 描述和配置channel组件，此处使用是内存缓存的方式

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# 描述和配置source channel sink之间的连接关系

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

2、启动agent去采集数据

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置文件所在目录

-f conf/netcat-logger.con 指定我们所描述的采集方案

-n a1 指定我们这个agent的名字

3、测试

先要往agent采集监听的端口上发送数据，让agent有数据可采

随便在一个能跟agent节点联网的机器上

telnet anget-hostname port （telnetitcast01 44444）

1.2.2 Flume中常用的source、channel、sink组件

1.2.2.1 source组件

Source类型	说明
Avro Source	支持Avro协议（实际上是Avro RPC），内置支持
Thrift Source	支持Thrift协议，内置支持
Exec Source	基于Unix的command在标准输出上生产数据
JMS Source	从JMS系统（消息、主题）中读取数据，ActiveMQ已经测试过
Spooling Directory Source	监控指定目录内数据变更
Twitter 1% firehose Source	通过API持续下载Twitter数据，试验性质
Netcat Source	监控某个端口，将流经端口的每一个文本行数据作为Event输入
Sequence Generator Source	序列生成器数据源，生产序列数据
Syslog Sources	读取syslog数据，产生Event，支持UDP和TCP两种协议
HTTP Source	基于HTTP POST或GET方式的数据源，支持JSON、BLOB表示形式
Legacy Sources	兼容老的Flume OG中Source（0.9.x版本）

1.2.2.2 Channel组件

Channel类型	说明
Memory Channel	Event数据存储在内存中
JDBC Channel	Event数据存储在持久化存储中，当前Flume Channel内置支持Derby
File Channel	Event数据存储在磁