一。什么是flume?
一个实时日志收集工具,具有分布式,高可靠,高可用等特点。接受各类型数据发送方,对数据可进行简单的处理,传输到各类数据接收方。
二。架构
单节点:
多节点:
架构介绍:
基本概念:
1.event:是数据传输的基本单元,source接受event或通过特殊机制产生event,其由header和载有数据的字节数据组成。其可以在路由过程中扩展。接口定义如下:
public interfaceEvent {
publicMap<String, String> getHeaders();
public voidsetHeaders(Map<String, String> headers);
public byte[] getBody();
public void setBody(byte[] body);
}
2.source:数据源,接受event,并将其放入到一个或多个channel上去。有2中类型的source,一种是轮询,一种是event驱动。
不同类型的source:
avro,thift,exec,http,syslog,jms,file(soopdir)
3.channel:缓存event,当sink从channel中成功取走数据,event将会被从channel中移除。根据channel的持久化水平不同,有多种
类型的channel:其支持食物,提供较弱的顺序保证。
·memory:不会被持久化,高吞吐量,但无法保证可靠性。
·file:WAL(预写式日志)的实现,配置较为复杂,将数据持久化到数据目录中,保证其传输的可靠性。
·jdbc:采用内置的Derby数据库,可靠性高,有望取代file。
4.sink:将数据发送至下一跳或者最终目的地。sink有多种:
·hdfs
·hbase
·avro:avro的source(可自定义avro的server),多用于agent之间数据传输。
·thift
·file
延伸概念:
1.用户source的interceptor:对event做必要的过滤。内建的interceptor在hearders中加入时间戳、主机名、静态标记等等。定制的interceptor可以在必要的地方创建headers
2.channel selector:基于source选择一个或多个channel。内建的channel selectors:
replicating:复制event
multiplexing:复用,将event路由至特定的channel
3.sink selector:sink processor作为sink的代理,多个sink组成一个sink group,sink processor从sink group中激活sink。sink porcessors通过sink group中所有的sink实现负载均衡,也可以在sink失败时转移到另一个(故障转移)。换句话说flume是
通过sink processor实现负载均衡(load balancing)和故障转移(failover)。所有的sink都是采取轮询的方式从channel上获取event,此步动作有sink runner激活。
4.collector:对数据汇总处理(如数据要sink到hbase之前用collector处理下)。
flume的可靠性体现在:
1.agent之间数据传输是事务性的。
2.channel是支持持久化的。
flume的可用性体现在:
1.内建的负载均衡
2.内建的故障转移
三。可靠性数据传输(事务)
如下图所示:
1.agent之间传输:sink从channel中取出event向下一个agent传输,事务就已经开始,当下一跳成功接收event并返回信息,则提交事务,表示该次数据传输成功,event从channel中被清除。如果失败,可以重新开始事务(数据被存放在磁盘中)。
2.agent接收上一跳的event后就开始了一个新的事务,当被成功的放入channel后,事务提交,传输成功。
四。flume常见级联图:
图一:
图二:
五。flume架构实例
flume只是一个日志收集工具,其大多和其他Hadoop组件结合使用来构建实时分析系统。
如:用flume+kafka+storm+hdfs构建一个实时系统。详情请参见该博文:用flume构建实时系统