头歌Flume采集方案管理答案

最新推荐文章于 2024-09-12 02:55:43 发布

Master东

最新推荐文章于 2024-09-12 02:55:43 发布

阅读量2.9k

点赞数 7

文章标签： flume hadoop 大数据

本文链接：https://blog.csdn.net/maxiangdongkk/article/details/130916725

版权

文章详细介绍了Flume的配置方案，包括Source、Channel和Sink的设置，如使用execSource监控文件，memoryChannel存储数据，以及HDFSSink将数据写入HDFS。配置参数包括文件滚动策略、数据批量传输和文件格式等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Flume采集方案第一关

#定义三大组件的名称和关联
a1.sources = r1
a1.channels = c1
a1.sinks = k1
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
?
#定义Source的相关属性
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/flume/flumedata/aa.txt
?
#定义channel的相关属性
a1.channels.c1.type = memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
?
#定义Sink的相关属性
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path = hdfs://localhost:9000/flume/%Y-%m-%d/%H-%M
a1.sinks.k1.hdfs.filePrefix = wcm
a1.sinks.k1.hdfs.fileSuffix = .wsy
#下面三个条件满足其一，就会产生新文件
#新文件产生的时间周期，单位是秒，如果设置为0表示不会产生新文件。
a1.sinks.k1.hdfs.rollInterval = 6
#当前文件达到1000字节，就会产生新文件
a1.sinks.k1.hdfs.rollSize = 1000
#当前文件的event数量达到10条，就会产生新文件
a1.sinks.k1.hdfs.rollCount &#