flume面试理论和应用

最新推荐文章于 2024-09-12 11:55:27 发布

WGS.

最新推荐文章于 2024-09-12 11:55:27 发布

阅读量276

点赞数 1

分类专栏： # 大数据环境搭建

本文链接：https://blog.csdn.net/qq_42363032/article/details/109174400

版权

大数据环境搭建专栏收录该内容

33 篇文章 4 订阅

订阅专栏

理论

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统
Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集需求，通过对flume的简单配置即可实现
Flume针对特殊场景也具备良好的自定义扩展能力，
因此，flume可以适用于大部分的日常数据采集场景

Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成

每一个agent相当于一个数据传递员，内部有三个组件：

Source：采集组件，用于跟数据源对接，以获取数据
Channel：传输通道组件，用于从source将数据传递到sink，类似于缓存
Sink：下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据
Source 到 Channel 到 Sink之间传递数据的形式是Event事件；Event事件是一个数据流单元。

缓存干的事：上下游速度不一样问题，比如采集的快，下沉的慢

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xZP6HpoK-1603156924527)(4032AF22E895430DB7B6DC4505ED1984)]

在这里插入图片描述

flume是什么？

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统

flume分布式系统中最核心的角色是什么？

是agent，flume采集系统就是由一个个agent所连接起来形成的

flume中，每一个agent相当于一个数据传递员，内部有三个组件，是什么？

source：负责采集
- 可采集socket数据包、文件、文件夹、kafka等各种形式源数据
- netcat （数据包的形式）
- spooldir（目录的形式）
- exec（文件的形式）
- avro source（可以级联）
Channel：负责传输，类似于缓存
Sink：负责下沉
- 可下沉输出到HDFS、hbase、hive、kafka等外部存储系统中
- hdfs、avro sink

source到channel到sink之间传递数据的形式是什么？

event事件，event事件是一个数据流单元

flume常用的source有哪些？

socket数据包、文件、文件夹、kafka等各种形式数据源

flume常用的channel有哪些？

Menory channel
- 基于内存的，对数据要求不是很高丢了没事，比较快，占内存，可能会数据丢失
file channel
- 会落地磁盘
kafka channel
- 采集到数据之间下沉到kafka

flume常用的sink有哪些

hdsf、hbase、hive、kafka等外部存储系统

了解flume的负载均衡和故障转移吗？

设置sink组，同一个sink组内有多个sink，不同sink之间可以配置负载均衡或故障转移。

负载均衡

source中的event流经channel，进入sink group，在sink group中根据负载算法选择sink，然后选择不同机器上的agent实现负载均衡。

故障转移

故障转移机制的工作方式是将失败的sink放到一个池中，
并在池中为它们分配一段冷冻期，在重试之前随着连续的失败而增加。
一个sink成功发送event后，将其恢复到活动池。
sink有一个与它们相关联的优先级，数字越大表示优先级越高。
如果一个sink在发送event时失败，则下一个具有最高优先级的sink将被尝试用于发送事件。

1.采集目录到hdfs

采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
根据需求，首先定义以下3大要素

数据源组件，即source ——监控文件目录 : spooldir

spooldir特性：
   1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容
   2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED
   3、所监视的目录中不允许重复出现相同文件名的文件

下沉组件，即sink——HDFS文件系统 : hdfs sink
通道组件，即channel——可用file channel 也可以用内存channel

1.配置文件编写

cd  /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf

mkdir -p /export/servers/dirfile

vim spooldir.conf

整个配置文件就四步
1.source
2.channel
3.sink
4.三者的拓扑关系


# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
##注意：不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/servers/dirfile
a1.sources.r1.fileHeader = true
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node01:8020/spooldir/files/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

Channel参数解释：

capacity：默认该通道中最大的可以存储的event数量
trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量
keep-alive：event添加到通道中或者移出的允许时间

2.启动

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/

bin/flume-ng agent -c ./conf -f ./conf/spooldir.conf -n a1 -Dflume.root.logger=INFO,console

3.上传文件

上传文件到指定目录

将不同的文件上传到下面目录里面去，注意文件不能重名

cd /export/servers/dirfile

4.查看

在这里插入图片描述

2.采集文件到hdfs

采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs

根据需求，首先定义以下3大要素

采集源，即source——监控文件内容更新 : exec ‘tail -F file’
下沉目标，即sink——HDFS文件系统 : hdfs sink
Source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

1.配置文件

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf

vim tail-file.conf

agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# Describe/configure tail -F source1
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /export/servers/taillogs/access_log
agent1.sources.source1.channels = channel1

#configure host for source
#agent1.sources.source1.interceptors = i1
#agent1.sources.source1.interceptors.i1.type = host
#agent1.sources.source1.interceptors.i1.hostHeader = hostname

# Describe sink1
agent1.sinks.sink1.type = hdfs
#a1.sinks.k1.channel = c1
agent1.sinks.sink1.hdfs.path = hdfs://node01:8020/weblog/flume-collection/%y-%m-%d/%H-%M
agent1.sinks.sink1.hdfs.filePrefix = access_log
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
agent1.sinks.sink1.hdfs.round = true
agent1.sinks.sink1.hdfs.roundValue = 10
agent1.sinks.sink1.hdfs.roundUnit = minute
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

在这里插入图片描述

2.启动flume

cd  /export/servers/apache-flume-1.6.0-cdh5.14.0-bin

bin/flume-ng agent -c conf -f conf/tail-file.conf -n agent1  -Dflume.root.logger=INFO,console

3.开发shell脚本定时追加文件内容

mkdir -p /export/servers/shells/

cd  /export/servers/shells/

vim tail-file.sh

#!/bin/bash
while true
do
 date >> /export/servers/taillogs/access_log;
  sleep 0.5;
done

创建文件夹

mkdir -p /export/servers/taillogs

启动脚本

sh /export/servers/shells/tail-file.sh

4.查看

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sC0hY6kA-1603156924549)(115B91956A5941919CEB1DDF4AAD379F)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LllyUAQV-1603156924552)(E1DA630576CF46D78D458C17869C868F)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmG7nF5a-1603156924555)(F60D769225AB44829ABDCBB81DFBC93A)]

在这里插入图片描述

3.两个agent级联

扇入 (多个agent采集最后交给一个agent)

在这里插入图片描述

需求分析：

第一个agent负责收集文件当中的数据，通过网络发送到第二个agent当中去，第二个agent负责接收第一个agent发送的数据，并将数据保存到hdfs上面去

1.node02安装flume

将node03机器上面解压后的flume文件夹拷贝到node02机器上面去

cd  /export/servers
scp -r apache-flume-1.6.0-cdh5.14.0-bin/ node02:$PWD

2.node02配置flume配置文件

在node02机器配置我们的flume

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf
vim tail-avro-avro-logger.conf

##################
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /export/servers/taillogs/access_log
a1.sources.r1.channels = c1
# Describe the sink
##sink端的avro是一个数据发送者
a1.sinks = k1
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 192.168.72.130
a1.sinks.k1.port = 4141
a1.sinks.k1.batch-size = 10
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3.node02开发脚本文件往文件写入数据

直接将node03下面的脚本和数据拷贝到node02即可，node03机器上执行以下命令

cd  /export/servers
scp -r shells/ taillogs/ node02:$PWD

4.node03开发flume配置文件

在node03机器上开发flume的配置文件

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf
vim avro-hdfs.conf

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
##source中的avro组件是一个接收者服务
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.72.130
a1.sources.r1.port = 4141
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node01:8020/avro/hdfs/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

5.顺序启动

node03机器启动flume进程

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin
bin/flume-ng agent -c conf -f conf/avro-hdfs.conf -n a1  -Dflume.root.logger=INFO,console

node02机器启动flume进程

cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/
bin/flume-ng agent -c conf -f conf/tail-avro-avro-logger.conf -n a1  -Dflume.root.logger=INFO,console

node02机器启shell脚本生成文件

cd  /export/servers/shells
sh tail-file.sh

WGS.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

flume面试理论和应用

文章目录

理论

flume是什么？

flume分布式系统中最核心的角色是什么？

flume中，每一个agent相当于一个数据传递员，内部有三个组件，是什么？

source到channel到sink之间传递数据的形式是什么？

flume常用的source有哪些？

flume常用的channel有哪些？

flume常用的sink有哪些

了解flume的负载均衡和故障转移吗？

1.采集目录到hdfs

1.配置文件编写

2.启动

3.上传文件

4.查看

2.采集文件到hdfs

1.配置文件

2.启动flume

3.开发shell脚本定时追加文件内容

4.查看

3.两个agent级联

1.node02安装flume

2.node02配置flume配置文件

3.node02开发脚本文件往文件写入数据

4.node03开发flume配置文件

5.顺序启动