大数据之Flume数据采集框架

最新推荐文章于 2024-08-14 09:15:16 发布

大数据面壁者

最新推荐文章于 2024-08-14 09:15:16 发布

阅读量1.6k

点赞数

分类专栏： flume 文章标签：大数据 flume

本文链接：https://blog.csdn.net/weixin_42796403/article/details/110440420

版权

flume 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、Flume概述

1.1 Flume定义

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

在这里插入图片描述

Flume最主要的作用就是，实时读取服务器本地磁盘数据，将数据写入到HDFS，也可以将数据传送给Kafuka、spark等框架进行数据分析处理。

1.2 Flume基础架构

Flume组成架构如下图所示。
在这里插入图片描述

1.2.1 Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的，启动flume采集数据的时候启动的就是agent进程。
Agent主要有3个部分组成，Source、Channel、Sink。

1.2.2 Source

定义从哪里采集数据：负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

1.2.3 Sink

定义数据保存到哪里：Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

1.2.4 Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

传输单元，Flume数据传输的基本单元，source采集数据之后会封装成Event，将数据从源头送至目的地。Event由Header和Body两部分组成，Header用来存放该event的一些属性，为K-V结构，Body用来存放该条数据，形式为字节数组。

二、相关原理

2.1 Flume事务

flume的source采集数据之后，如果不做控制，在source->channel以及channel->sink这中间是有可能出现数据丢失的。所以需要用事务进行控制
flume的事务分为两种: source->channel的put事务,channel->sink的take事务

Put事务流程：

Source采集一个批次的数据
通过doPut方法将批次的数据放入putList[putList的大小=事务容量大小]中
putList有容量限制不能无限存放数据，所以当putList满了之后会将putList里面的所有数据通过doCommit保存到channel里面
如果channel中空间不足，此时会保存失败，失败的时候事务会回滚[会清空putList里面的所有数据，然后抛出异常,source捕获到异常之后会重新采集]

Take事务流程：

sink从channel中拉取一个批次的数据【拉取的是数据的引用】
通过doTake方法将批次的数据写入takeList[takeList的大小=事务容量大小]里面
通过doCommit方法将takeList里面的数据写入存储介质
如果写入报错，此时会回滚[清空takeList里面的数据]，如果写入成功,清空takeList里面的数据,同时也会清除channel里面的已经写入成功数据

注意：一个批次采集数据量batchSize <= channel的事务容量transactionCapacity <= channel的容量capacity

2.2 Flume Agent内部原理

在这里插入图片描述
流程：

Source->
	Channel processor->
	    			拦截器->
						通过channel selector确定数据应该发到哪个channel里面->
		     					channel->
									通过sink processor确定数据应该发到哪个sink里面->
										sink

重要组件：
1）Channel Selector
ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和Multiplexing（多路复用）。

Replicating Channel Selector: 将Source中的每个数据都向所有的channel都发送一份
Multiplexing Channel Selector: 将source中的数据指定发到哪个或者那几个channel中

2）Sink Processor
SinkProcessor共有三种类型，分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor
DefaultSinkProcessor对应的是单个的Sink，LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group，LoadBalancingSinkProcessor可以实现负载均衡的功能，FailoverSinkProcessor可以错误恢复的功能。
一个channel对应一个sink的时候使用
1、Default Sink Processor:
一个channel对应一个sinkd的时候使用
2、Failover Sink Processor: 故障转移,channel中的数据首先向某一个sink写入,直到该sink宕机才会想第二个sink写入
3、Load balancing Sink Processor: 负载均衡, 数据均衡的写入不同的sink

2.3 Flume拓扑结构

2.3.1 简单串联

在这里插入图片描述

图 Flume Agent连接

这种模式是将多个flume顺序连接起来了，从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量， flume数量过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统。

2.3.2 复制和多路复用

在这里插入图片描述

图单source，多channel、sink

Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中，或者将不同数据分发到不同的channel中，sink可以选择传送到不同的目的地。

2.3.3 负载均衡和故障转移

在这里插入图片描述

图 Flume负载均衡或故障转移

Flume支持使用将多个sink逻辑上分到一个sink组，sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。

2.3.4 聚合

在这里插入图片描述

图 Flume Agent聚合

这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase等，进行日志分析。