这里写目录标题
一. Flume事务
注:
Channel --> Sink
过程是Sink主动
从Channel
中拉取数据
的!
Put事务流程:
(1)doPut
: 把批数据
先写入
临时缓冲区putList
(2)doCommit
:检查channel内存队列是否足够合并
(3)doRollback
:channel内存队列空间
若不足
,则回滚
数据到缓冲区
中
Take事务流程:
(1)doTake
: 把数据
拉取到临时缓冲区takeList
,并把数据发送
到HDFS
(2)doCommit
: 如果数据
全部发送成功
,则清除
临时缓冲区takeList
(3)doRollback
: 数据发送
过程中若出现异常
,rollback
将临时缓冲区takeList
中的数据
归还给channel队列
二. Flume Agent内部原理
注:
一个Sink
只能拉取一个Channel
中的数据,而一个Channel
却可以被多个Sink
同时拉取!
重要组件:
1)ChannelSelector
ChannelSelector
的作用就是选出 Event
将要被发往
哪个 Channel
。其共有两种类型,
分别是 Replicating(复制)
和 Multiplexing(多路复用)
ReplicatingSelector
会将同一个 Event
发往所有的 Channel
,Multiplexing 会根据相 应的原则
,将不同的 Event
发往不同的 Channel
2)SinkProcessor
SinkProcessor
共有三种类型,分 别 是 DefaultSinkProcessor
、LoadBalancingSinkProcessor和FailoverSinkProcessor
DefaultSinkProcessor 对 应 的 是 单 个 的 Sink(一个Channel只绑定一个Sink) , LoadBalancingSinkProcessor和FailoverSinkProcessor 对应的是 Sink Group,LoadBalancingSinkProcessor 可以实现负载均衡的功能,FailoverSinkProcessor 可以错误恢复的功能。
三. Flume拓扑结构
3.1 简单串联
这种模式是将多个 flume 顺序连接
起来了,从最初的 source 开始到最终 sink 传送的
目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统
3.2 复制和多路复用
Flume
支持将事件
流向一个或者多个目的地
。这种模式可以将相同数据复制
到多个 channel
中,或者将不同数据
分发到不同的 channel
中,sink
可以选择
传送到不同的目的地
3.3 负载均衡和故障转移
Flume
支持使用将多个sink逻辑上
分到一个sink组
,sink组配合不同的SinkProcessor
可以实现负载均衡和错误恢复
的功能。
3.4 聚合
这种模式是我们最常见的,也非常实用,日常 web 应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用 flume 的这种组合方式能很好的解决这一问题,每台服务器部署一个 flume 采集日志,传送到一个集中收集日志的flume,再由此 flume 上传到 hdfs、hive、hbase 等,进行日志分析。
四. Flume企业开发案例
4.1 复制和多路复用
1)案例需求
使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local
FileSystem。
2)需求分析:
3)实现步骤:
(1)准备工作
在/opt/module/flume/job
目录下创建 group1
文件夹
在/opt/module/data/
目录下创建 flume3
文件夹
(2)创建 flume-file-flume.conf
配置 1 个接收日志文件
的source
和两个 channel
、两个 sink
,分别输送给 flume-flume-hdfs
和 flume-flume-dir
。
编辑配置文件
# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# 将数据流复制给所有 channel
a1.sources.r1.selector.type = replicating
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /tmp/root/hive.log
a1.sources.r1.shell = /bin/bash -c
# Describe the sink
# sink 端的 avro 是一个数据发送者
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2
(3)创建 flume-flume-hdfs.conf
配置上级 Flume
输出的 Source
,输出
到 HDFS
的Sink
。
编辑配置文件
# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1
# Describe/configure the source
# source 端的 avro 是一个数据接收服务
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141
# Describe the sink
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hadoop102:8020/flume2/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k1.hdfs.filePrefix = flume2-
#是否按照时间滚动文件夹
a2.sinks.k1.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k1.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k1.hdfs.batchSize = 100
#设置文件类型,可支持压缩
a2.sinks.k1.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k1.hdfs.rollInterval = 30
#设置每个文件的滚动大小大概是 128M
a2.sinks.k1.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k1.hdfs.rollCount = 0
# Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
(4)创建 flume-flume-dir.conf
配置上级 Flume
输出的 Source
,输出
到本地目录
的 Sink
。
编辑配置文件
# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2
# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142
# Describe the sink
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/data/flume3
# Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2
注:此处输出的本地目录必须是已经存在的目录,如果该目录不存在,并不会创建新的目录。
(5)执行配置文件
分别启动
对应的 flume 进程:flume-flume-dir
,flume-flume-hdfs
,flume-file-flume
。
正常情况下,我们需要先开启服务端后,在开启客户端,方可正常运行。此处我们先尝试错误的做法,即先开启客户端进程(flume-file-flume)
,并同时监控运行状态:
首先在开启
一台连接hadoop102
并通过tail -F
命令实时监控Flume日志
的变动,之后同样再开一台连接hadoop102
并在/opt/module/flume
目录下执行:
bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group1/flume-file-flume.conf
随后查看Flume
日志变化,发现不断的出现拒绝连接
的异常,再次验证了服务端必须先开启的原则。
下面我们进行正常的操作,那么就需要先运行服务端
的flume-flume-dir
和flume-flume-hdfs进程
,之后再运行客户端
的flume-file-flume进程
,然后启动Hive
:
注:
Hive
是基于Hadoop
的,所以在运行任何进程前
必须先打开Hadoop集群
,否则报错!
(6)检查 HDFS 上数据
(7)检查/opt/module/datas/flume3 目录中数据