flume案例

最新推荐文章于 2022-09-29 16:37:11 发布

喵喵秀拌酱

最新推荐文章于 2022-09-29 16:37:11 发布

阅读量351

点赞数

分类专栏：笔记文章标签： hadoop flume 数据库大数据

本文链接：https://blog.csdn.net/Carina_____/article/details/109552992

版权

笔记专栏收录该内容

30 篇文章 0 订阅

订阅专栏

本文详细介绍了Flume在日志采集中的应用，包括监控文件变化、多级Agent串联、高可用机制（failover和load balancer）。同时讨论了Flume控制HDFS文件大小的策略以及自定义拦截器实现数据脱敏。此外，还提到了Azkaban作为定时任务工具的介绍和使用。

摘要由CSDN通过智能技术生成

第一个案例：flume采集网络端口的数据
第二个案例：监控某一个目录下面的所有的文件，只要目录下面有文件，收集文件内容，上传到hdfs上面去

sink：hdfsSink
source： spooldir
spooldir特性：
1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容
2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED
3、所监视的目录中不允许重复出现相同文件名的文件（flume比较脆弱，一旦抛异常，就会停止工作，只能手动重启）

channel：memory channel

hdfs sink文件大小的控制策略
将我们的数据放到hdfs上面去，要避免产生大量的小文件
可以控制我们的flume的采集数据的频率
文件采集策略：
多长时间采集一次
文件多大采集一次

定义文件多长时间采集一次
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

定义文件多大的时候采集一次
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true

启动flume
bin/flume-ng agent -c conf -f conf/spooldir.conf -n a1 -Dflume.root.logger=INFO,console
-c conf 指定flume自身的配置文件所在目录
-f conf/spooldir.conf 指定我们所描述的采集方案
-n a1 指定我们这个agent的名字

flume监控某个文件的变化

写一个脚本，定时的执行检测，检测数据有没有减少，检测目的数据有没有增多，如果没有，就杀掉flume，重新启动
或者采取flume的failover机制

flume多级agent串联

flume的failover的高可用机制

flume的负载均衡load balancer

在此处我们通过三台机器来进行模拟flume的负载均衡
三台机器规划如下：
node01：采集数据，发送到node02和node03机器上去
node02：接收node01的部分数据
node03：接收node01的部分数据

flume的静态拦截器的使用-标识数据的类型

1.案例场景
A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log
现在要求：
把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。
但是在hdfs中要求的目录为：
/source/logs/access/20180101/**
/source/logs/nginx/20180101/**
/source/logs/web/20180101/**