Flume概念(数据实时采集)
flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统
Flume版本更迭
老版本:flume-og 需要zookeeper的支持
新版本:flume-ng 不需要zookeeper的支持(本文说的都是新版本的)
Flume结构(核心为Agent)
完整工作流程
这种机制保证了数据传输的可靠与安全
核心(event)
本身是一个字节数组,可携带headers信息,是事务的基本单位,如果是文本文件,通常为一行记录,flume处理日志时流动的是event
组件剖析
source
职能:
专门从网络收集数据
可处理类型:
avro thrift exec jms spooling directory netcat sequence
generator syslog http legacy 甚至自定义
channel
职能:
存放的临时数据,缓存
可存放地点:
内存(memory),jdbc,磁盘(file)
sink
职能:
将数据发往目的地的组件
目的地类型:
hdfs,logger(控制台),avro,thrift,ipc,flie,hbase,solr,自定义
Interceptor(chain 责任链形式)
职能:
用于在Source与channel之间的数据包装或者数据清洗
Selector
职能:
选择器可以工作在在复制,路由模式下
Process
职能:
指定sink传递给下一个(或者多个)Agent的传递策略
组件配置(可配置项过多,可以自行百度,只贴基本配置)
1.基础配置(配置conf文件)
1)配置Agent的组件
a1.sources=r1
a1.channels=c1(可配置多个通道 以空格隔开)
a1.sinks=s1(可配置多个 以空格隔开)
(其中a1,r1,c1,s1都可以随意定义)
2)配置Channel绑定source与sink
a1.sources.r1.channels=c1(可对应多个通道 以空格隔开)
a1.sinks.s1.channel=c1(一个通道对应一个sink)
3)配置source
4)配置channel
5)配置sink