简介
taildir source 可以监控一批文件,实时采集信息,且支持断点续传(agent重启后不会重复采集)
该场景下,同时监控两个日志文件,一个是docker容器日志,一个是MySQL的系统日志
任务配置
配置文件如下:
#simple.conf: A single-node Flume configuration
# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1
# Describe/configure the source
a2.sources.r1.type = TAILDIR
#记录文件读取位置
a2.sources.r1.positionFile = /home/test/tmp/taildir_position.json
#监控读取的文件组
a2.sources.r1.filegroups = f1 f2
# f1文件路径
a2.sources.r1.filegroups.f1 = /data/docker/containers/e511e3e4b3445efeb38fe822ac086dfc5ebb8bdc4a725dc6e2969ef2092c78ec/e511e3e4b3445efeb38fe822ac086dfc5ebb8bdc4a725dc6e2969ef2092c78ec-json.log
# f2文件路径
a2.sources.r1.filegroups.f2 = /data/mysql5.7/data/yd-ss.log
# Describe the sink
a2.sinks.k1.type = file_roll
a2.sinks.k1.sink.directory = /home/test/log/spooldir
# one day roll once
a2.sinks.k1.sink.rollInterval = 86400
a2.sinks.k1.serializer = TEXT
# Use a channel which buffers events in memory
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
启动执行
bin/flume-ng agent -c conf -f ./job/taildir-memory-fileroll.conf -n a2 -Dflume.root.logger=INFO,console
//使用nohup &后台运行,不占用终端,但会生成nohup.out日志文件
nohup bin/flume-ng agent -c conf -f ./job/taildir-memory-fileroll.conf -n a2 -Dflume.root.logger=INFO,console &
执行结果监控
可以看到两个日志源文件合并后的转储文件,一天会新建一个文件进行滚动存储,文件名是任务启动时的时间戳-序号
测试断点续传
杀掉应用
//查看进程信息
ps -ef|grep flume
//杀掉进程
kill -9 <pid>
隔几分钟后再打开应用,则采集日志信息包含关闭flume应用期间的日志 。
但却是新建了储存文件,没有在原先的文件里进行存储。
经验总结
1、使用file_roll sink,重启flume 会新创建一个储存文件,不管source是 exec 还是taildir
2、taildir断点续传只是在内容上接续,但不是在原文件中
以上是个人实验所得,若有不合适地方,欢迎大家指正。