Flume
Flume基础
Flume是一个高可用的,高可靠的分布式日志采集传输系统。
- 常用系统分布
Flume 基础架构
Agent
- Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。
- Agent由三部分组成,分别是Source,Channel和Sink,他在图中就代表中间的方块。
Source
- Sorce是用来接收数据进入Agent中的组件。
- Source可以接受处理各种类型,各种格式的日志数据。比如avor、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。
Sink
- Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
- Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。
Channel
- Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。
- Flume 自带两种 Channel:Memory Channel 和 File Channel 以及 Kafka Channel。
Event
- 传输单元,Flume 数据传输的基本单元,以 Event 的形式将数据从源头送至目的地。
- Event 由 Header 和 Body 两部分组成,Header 用来存放该 event 的一些属性,为 K-V 结构,Body 用来存放该条数据,形式为字节数组。
Flume 快速入门
Flume框架需要字节手写配置文件,在启动的时候带上配置文件内容即可
-
一般的配置文件如下图所示
官方的配置手册:http://flume.apache.org/FlumeUserGuide.html. -
随后用命令行打开flume即可
bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console
-
参数说明:
-conf/-c:表示配置文件存储在 conf/目录-name/-n:表示给 agent 起名为 a1
-conf-file/-f:flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf文件。
-Dflume.root.logger=INFO,console :-D 表示 flume 运行时动态修改 flume.root.logger参数属性值,并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、error。
常用的几种数据源监控方法
实时监控单个追加文件
案例需求:实时监控 Hive 日志,并上传到 HDFS 中
实时监控目录下多个新文件
案例需求:使用 Flume 监听整个目录的文件,并上传至 HDFS
实时监控目录下的多个追加文件
案例需求:使用 Flume 监听整个目录的实时追加文件,并上传至 HDFS
- Taildir Source 维护了一个 json 格式的 position File,其会定期的往 position File 中更新每个文件读取到的最新的位置,因此能够实现断点续传。
Flume 进阶
Flume 事务
Put事务的流程
- doPut:将皮数据写入临时缓冲区putList。
- doCommit:检查Channel内存队列是否