Flume进阶使用
前提回顾
flume是以三大部分组成
- agent:flume 的组成单位,包括了Source,Channel,Sink
- Source
- netcat:官方提供的端口监控组件
- exec 用于监控Linux中的命令的(tail-F)
- Spooldir:监控一个目录的。如果目录中出现了新的文件,就文件内容采集过来。
- taildir:监控多文件,维护offset(支持断点续传 根据计算下载时记载在json中的系统偏移量来实现断点续传)
- Kafka
- Channel
- memorychannel:基于内存
- filechannel:基于硬盘
- Kafka
- Sink
- HDFS
- Logger
- Kafaka
- HBase
- Hive
- event:是S,C,K中传输时最小的单位 是由(header:属性,body:数据,字节数组形式存在)