Flume案例三：实时监控单个追加文件(tail -f 日志)到HDFS

最新推荐文章于 2022-11-08 18:13:38 发布

扛麻袋的少年

最新推荐文章于 2022-11-08 18:13:38 发布

阅读量531

点赞数 1

分类专栏： # Flume

本文链接：https://blog.csdn.net/lzb348110175/article/details/118186673

版权

Flume 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

本文接上篇博客：Flume介绍、安装、使用案例、自定义Source/Sink、监控
Flume 版本：1.9.0
本文hdfs sink，需 Hadoop 支持，Hadoop相关内容，请参考：Hadoop专栏

1.实时监控单个追加文件(tail -f 日志)到HDFS案例

选型：exec source + memory channel + hdfs sink

文档参考：
exec source：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#exec-source
memory channel：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#memory-channel
hdfs sink：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sink

提示：
Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失；Spooling Directory Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控；而 Taildir Source 既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控，集两者优点于一身，更推荐使用Taildir Source。

推荐：
如果你要使用 exec source，生产上更推荐使用 Taildir source，本文仅做了解学习使用。Taildir Source 参考：https://blog.csdn.net/lzb348110175/article/details/118189312

2.需求图示

在这里插入图片描述

3.flume配置

flume-exec-hdfs.conf

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/flume/file/test.log
a1.sources.r1.shell = /bin/sh -c

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/exec/%Y-%m-%d/%H
a1.sinks.k1.hdfs.filePrefix = testlog
# 是否使用本地时间戳(对于所有与时间相关的转义序列，Event Header 中必须存在以 “timestamp”的 key（除非hdfs.useLocalTimeStamp 设置为 true，此方法会使用 TimestampInterceptor 自动添加timestamp）。)
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 是否按照时间滚动文件夹
a1.sinks.k1.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a1.sinks.k1.hdfs.roundValue = 1
# 重新定义时间单位
a1.sinks.k1.hdfs.roundUnit = hour
# 积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 1000
# 多久生成一个新的文件(seconds)
a1.sinks.k1.hdfs.rollInterval = 30
# 设置每个文件的滚动大小
a1.sinks.k1.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a1.sinks.k1.hdfs.rollCount = 0
# 设置文件类型，可支持压缩(不加该配置的话，Flume写入HDFS的文件会出现SEQ !org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable)
a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

4.启动命令

bin/flume-ng agent -c conf -n a1 -f job/flume-exec-hdfs.conf

5.异常处理

写入HDFS，报如下错误：java.lang.NoSuchMethodError:com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

这是因为hadoop目录下得guava版本和flume下的guava版本的问题。进入 flume/lib 目录下，将 guava-11.0.2.jar 包移除即可

6.测试图示

exec实时监听test.log文件，测试手动追加数据至test.log，flume 端能够正常接收，通过 hdfs sink方式输出到 /flume/exec 目录下，如图所示：

在这里插入图片描述

博主写作不易，加个关注呗

求关注、求点赞，加个关注不迷路ヾ(◍°∇°◍)ﾉﾞ

我不能保证所写的内容都正确，但是可以保证不复制、不粘贴。保证每一句话、每一行代码都是亲手敲过的，错误也请指出，望轻喷 Thanks♪(･ω･)ﾉ

扛麻袋的少年

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录