flume写入hdfs参数详解以及很多小文件问题

本文详细介绍了Flume中HDFS Sink的参数配置,包括文件路径、文件命名、滚动策略等,并探讨了产生小文件的问题及其解决方案。重点参数如rollInterval、rollSize、rollCount等,以及如何避免小文件产生的注意事项,例如合理设置idleTimeout和minBlockReplicas。
摘要由CSDN通过智能技术生成

     Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。

一、参数配置详解

  • type

            hdfs

  • path

            写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/

            可以使用flume提供的日期及%{host}表达式。

  • filePrefix

            默认值:FlumeData

            写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式。

  • fileSuffix

            写入hdfs的文件名后缀,比如:.lzo .log等。

  • inUsePrefix

            临时文件的文件名前缀,hdfs sink会先往目标目录中写临时文件,再根据相关规则重命名成最终目标文件;

  • inUseSuffix

            默认值:.tmp

            临时文件的文件名后缀。

  • rollInterval

            默认值:30

            hdfs sink间隔多长将临时文件滚动成最终目标文件,单位:秒;

            如果设置成0,则表示不根据时间来滚动文件;

            注:滚动(roll)指的是,hdfs sink将临时文件重命名成最终目标文件,并新打开一个临时文件来写入数据;

  • rollSize

            默认值:1024

            当临时文件达到该大小(单位:bytes)时,滚动成目标文件;

            如果设置成0,则表示不根据临时文件大小来滚动文件;

  • rollCount

            默认值:10

            当events数据达到该数量时候,将临时文件滚动成目标文件;

            如果设置成0,则表示不根据events数据来滚动文

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值