Source组件类型
Netcat Source
接受来自于数据客户端的请求数据,常用于测试开发
Exec Source
运行一个给定的unix指令,将指令的执行结果作为数据来源
Spooling Directory Source
监视指定目录的新文件,并从出现的新文件中解析事件
Kafka Source
获取来自于Kafka集群中数据
Sequence Generator Source
序列产生器,计数器从0开始每次+1到LONG.MAX_VALUE
Avro Source
接受来自于Avro Client请求数据,类似于Netcat Source
通常用于构建Flume集群和RPC通信数据的手机
Http Source
//示例
a1.sources.r1.type = http
a1.sources.r1.port = 9999
Channel组件类型
Memory Channel
将Event事件对象缓存到内存中
优点:快
缺点:存在数据丢失风险
JDBC Channel
将Event事件对象保存到DB中,目前只支持Derby
优点:安全
缺点:效率较低
File Channel
将Event事件对象保存到文件中
优点:安全
缺点:效率较低
Kafka Channel
将Event事件写入保存到Kafka集群
优点:高可用,数据备份
Sink组件
Logger Sink
以日志的形式输出采集到的数据
HDFS Sink
将采集到的数据最终写出到HDFS分布式文件系统,支持两种文件格式:文本和序列
注意:文件格式DataStream,采集到的数据不会进行序列化处理
每隔十分钟产生一个数据文件目录
File Roll Sink
基于文件滚动的sink输出,将采集到的数据写入保存到本地文件系统
Null Sink
将采集到所有的数据,全部丢弃
HBaseSinks
将采集到的数据写出保存到HBase非关系型数据库