任务13：13_Flume案例_监控本地文件夹（配置文件）

最新推荐文章于 2024-07-18 21:37:27 发布

有上进心的阿龙

最新推荐文章于 2024-07-18 21:37:27 发布

阅读量394

点赞数

分类专栏： flume 文章标签： flume

本文链接：https://blog.csdn.net/qq_41709577/article/details/112249872

版权

flume 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

上午实现的是一个监控一个动态的文件，上传到hdfs,这个动态的文件就是hive的日志文件。
之前监控的动态的文件时一行一行的读取数据，效率比较低。
现在的实例就是：
现在有个文件夹，每天往里面放新文件，整个文件放进去。这个文件放进去之后就不会改变了。之前的tail -F也可以，再写一个正则表达式，文件的格式统一就可以，但是时一行一行读取的，效率很低。我们就要用到另外一个source—spooldir source

在这里插入图片描述

在这里插入图片描述
现在的source不再是之前的netcat或者exec了
他们不能一次性把文件上传。类似于put
但是put是执行一次上传一个，对于flume来说，一直监控这个目录，只要有新文件了，就把它上传，并不是，某个新文件里面有新内容了把它上传。注意区别。
所以：
三大组件使用：
spooldir source
HDFS sink
memory channel
监控的目录是upload
在这里插入图片描述

开启监控之后，往upload里面仍一些数据的时候，在做测试：
往已存在的文件中追加内容呢？

雪球总结：
1本地有个文件夹upload
2写一个flume的配置文件
3启动agent
4往upload里面放数据
5去hdfs里面看上传的结果

在这里插入图片描述

准备写source,去看官网

文件的后缀：我上传了一个文件的时候，就给他的后缀写成COMPLETED,这杨flume就知道，就不会再上传了

白名单-黑名单
如果文件格式和我正则匹配，就上传
如果不匹配就不上传。
在这里插入图片描述

有上进心的阿龙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
任务13：13_Flume案例_监控本地文件夹（配置文件）

上午实现的是一个监控一个动态的文件，上传到hdfs,这个动态的文件就是hive的日志文件。之前监控的动态的文件时一行一行的读取数据，效率比较低。现在的实例就是：现在有个文件夹，每天往里面放新文件，整个文件放进去。这个文件放进去之后就不会改变了。之前的tail -F也可以，再写一个正则表达式，文件的格式统一就可以，但是时一行一行读取的，效率很低。我们就要用到另外一个source—spooldir source现在的source不再是之前的netcat或者exec了他们不能一次性把文件上传。类似于
复制链接

扫一扫

专栏目录