Flume之二

最新推荐文章于 2024-07-17 10:09:03 发布

二百四十九先森

最新推荐文章于 2024-07-17 10:09:03 发布

阅读量187

点赞数

分类专栏： Flume 文章标签： flume avro

本文链接：https://blog.csdn.net/pengzonglu7292/article/details/80077538

版权

需求1：采集本地一个文件夹下文件到hdfs上定义agent如下：a1.sources=r1a1.sinks=k1a1.channels=c1a1.sources.r1.type=spooldira1.sources.r1.spooldir=/home/hadoop/data/spool_dataa1.channels.c1.type=memorya1.channels.c1.capacity=10...

摘要由CSDN通过智能技术生成

需求1：采集本地一个文件夹下文件到hdfs上

定义agent如下：

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=spooldir
a1.sources.r1.spooldir=/home/hadoop/data/spool_data

a1.channels.c1.type=memory
a1.channels.c1.capacity=10000 //保存在channel中的最大event数
a1.channels.c1.tarasactionCapacity=10000 //每次最多从sources抽取并送到sinks端的event数

a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=hdfs://hadoop000:8020/data/flume/spool
a1.sinks.k1.hdfs.batchSize=10 //刷新到hdfs上的event数量，默认值100
a1.sinks.k1.hdfs.fileType=DataStream //可以是SenquenceFile,DataStream,CompressedStream。默认值为SenquenceFile
a1.sinks.k1.hdfs.writeFormat=Text
a1.sinks.k1.hdfs.rollInterval=0 //每隔多长时间，临时文件滚动成目标文件

a1.sinks.k1.hdfs.rollSize=10485760 //当临时文件达到该大小时，滚动成目标文件
a1.sinks.k1.hdfs.rollCount=10000 // 当events数据达到该数量时候，将临时文件滚动成目标文件

a1.sinks.k1.channel=c1

a1.sources.r1.channels=c1

保存为spool.conf文件，然后执行以下命令启动flume:

./flume-ng agent \
--name a1 \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/spool.conf \

-Dflume.root.logger=INFO,console

此时本地目录/home/hadoop/data/spool_data下如果有新的文件产生，则文件内容会被采集到hdfs的相应目录下

----------------------------------------------------------------------------------------------------------

需求2：按分钟收集本地目录下非.txt后缀的文件数据到hdfs上，以文件名格

最低0.47元/天解锁文章

二百四十九先森

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flume之二

需求1：采集本地一个文件夹下文件到hdfs上定义agent如下：a1.sources=r1a1.sinks=k1a1.channels=c1a1.sources.r1.type=spooldira1.sources.r1.spooldir=/home/hadoop/data/spool_dataa1.channels.c1.type=memorya1.channels.c1.capacity=10...
复制链接

扫一扫