Flume简单采集案例

最新推荐文章于 2023-06-11 21:55:59 发布

VIP文章且听_风吟

最新推荐文章于 2023-06-11 21:55:59 发布

阅读量1.4k

点赞数 1

分类专栏： Flume 文章标签： flume基础

本文链接：https://blog.csdn.net/qq_26803795/article/details/80905199

版权

1、采集案例

结构示意图：

采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
根据需求，首先定义以下3大要素
1.1、数据源组件，即source ——监控文件目录 : spooldir
spooldir特性：
   1.1.1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容
   1.1.2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED
   1.1.3、所监视的目录中不允许重复出现相同文件名的文件
1.2、下沉组件，即sink——HDFS文件系统 : hdfs sink

1.3、通道组件，即channel——可用file channel 也可以用内存channel

配置文件编写：

#定义三大组件的名称
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# 配置source组件
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /home/hadoop/logs/
agent1.sources.source1.f

最低0.47元/天解锁文章

且听_风吟

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flume简单采集案例

1、采集案例结构示意图：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素1.1、数据源组件，即source ——监控文件目录 : spooldirspooldir特性： 1.1.1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容 1.1.2、采集完成的文件，会被agent自动添加一个后缀：COM...
复制链接

扫一扫