目录
一、Flume概述
1.1 Flume定义
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
Flume最主要的作用就是,实时读取服务器本地磁盘数据,将数据写入到HDFS,也可以将数据传送给Kafuka、spark等框架进行数据分析处理。
1.2 Flume基础架构
Flume组成架构如下图所示。
1.2.1 Agent
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,启动flume采集数据的时候启动的就是agent进程。
Agent主要有3个部分组成,Source、Channel、Sink。
1.2.2 Source
定义从哪里采集数据:负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。
1.2.3 Sink
定义数据保存到哪里:Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。
1.2.4 Channel
Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel:Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。
1.2.5 Event
传输单元,Flume数据传输的基本单元,source采集数据之后会封装成Event,将数据从源头送至目的地。Event由Header和Body两部分组成,Header用来存放该event的一些属性,为K-V结构,Body用来存放该条数据,形式为字节数组。
二、相关原理
2.1 Flume事务
flume的source采集数据之后,如果不做控制,在source->channel以及channel->sink这中间是有可能出现数据丢失的。所以需要用事务进行控制
flume的事务分为两种: source->channel的put事务,channel->sink的take事务
Put事务流程:
- Source采集一个批次的数据
- 通过doPut方法将批次的数据放入putList[putList的大小=事务容量大小]中
- putList有容量限制不能无限存放数据,所以当putList满了之后会将putList里面的所有数据通过doCommit保存到channel里面
- 如果channel中空间不足,此时会保存失败,失败的时候事务会回滚[会清空putList里面的所有数据,然后抛出异常,source捕获到异常之后会重新采集]
Take事务流程:
- sink从channel中拉取一个批次的数据【拉取的是数据的引用】
- 通过doTake方法将批次的数据写入takeList[takeList的大小=事务容量大小]里面
- 通过doCommit方法将takeList里面的数据写入存储介质
- 如果写入报错,此时会回滚[清空takeList里面的数据],如果写入成功,清空takeList里面的数据,同时也会清除channel里面的已经写入成功数据
注意:一个批次采集数据量batchSize <= channel的事务容量transactionCapacity <= channel的容量capacity
2.2 Flume Agent内部原理
流程:
Source->
Channel processor->
拦截器->
通过channel selector确定数据应该发到哪个channel里面->
channel->
通过sink processor确定数据应该发到哪个sink里面->
sink
重要组件:
1)Channel Selector
ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。
- Replicating Channel Selector: 将Source中的每个数据都向所有的channel都发送一份
- Multiplexing Channel Selector: 将source中的数据指定发到哪个或者那几个channel中
2)Sink Processor
SinkProcessor共有三种类型,分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor
DefaultSinkProcessor对应的是单个的Sink,LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group,LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以错误恢复的功能。
一个channel对应一个sink的时候使用
1、Default Sink Processor:
一个channel对应一个sinkd的时候使用
2、Failover Sink Processor: 故障转移,channel中的数据首先向某一个sink写入,直到该sink宕机才会想第二个sink写入
3、Load balancing Sink Processor: 负载均衡, 数据均衡的写入不同的sink
2.3 Flume拓扑结构
2.3.1 简单串联
图 Flume Agent连接
这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。
2.3.2 复制和多路复用
图 单source,多channel、sink
Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。
2.3.3 负载均衡和故障转移
图 Flume负载均衡或故障转移
Flume支持使用将多个sink逻辑上分到一个sink组,sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。
2.3.4 聚合
图 Flume Agent聚合
这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase等,进行日志分析。