flume写入hdfs文件碎片化的问题

1
上图可以看到hdfs的块大小是128M,但是实际文件却很小,这种方法肯定有问题。
查看flume的配置

agent1.sinks.sink1.type=hdfs  
agent1.sinks.sink1.channel=channel1  
agent1.sinks.sink1.hdfs.path=hdfs://dashuju174:9000/flume/%{application}/%{dir}/%Y%m%d
agent1.sinks.sink1.hdfs.fileType=DataStream  
agent1.sinks.sink1.hdfs.writeFormat=Text  
agent1.sinks.sink1.hdfs.rollInterval=0  
agent1.sinks.sink1.hdfs.rollSize=10240  
agent1.sinks.sink1.hdfs.rollCount=0  
agent1.sinks.sink1.hdfs.idleTimeout=60 

按照flume-ng 写入hdfs上后出现一个文件被分割了很多个小文件在hdfs上的进行操作,并没有解决我的问题。
翻阅《Flume构建高可用、可扩展的海量日志采集系统》中Sink章节,HDFS Sink支持三种方式,一种是基于时间分桶,一种是基于写入事件的数量,一种是基于文件中事件主题的总大小来滚动文件。
文章明确指出,当使用基于时间的分桶,有可能在某个固定的时间点之后,就不会有事件再写入到bucket。如果对于文件关闭了启动滚动间隔,这样的文件可能从不会被关闭,所以使用hdfs.idleTimeout,单位为s,它表示在最后一个事件写入文件之后关闭文件要等待的秒数值事件。
解决hdfs碎片化的问题,也就是屏蔽掉agent1.sinks.sink1.hdfs.idleTimeout=60这个配置就可以了。实测可行。
接下来的问题是 rollSize大小如何配置才合理,HDFS block size的大小是128MB,我上面做的配置是10M,那么两个配置数据调整多大才合适呢?网上和书上并没有对此直接的说明,直觉接近128M为宜。比如100M。
基于文件大小的方式,适合非实时的数据采集,比如系统操作日志之类,对时间要求不高的场景。
在实践过程中,例如flume的拓扑结构中操作flume的集群,发现一个问题,如果其中的一个flume节点宕机后,会产生新的tmp文件,那么如果去掉idleTimeout的配置项,那么这些文件就无法关闭掉了。
那么合理的配置又是什么呢?最终还是回归到根据时间来推算,这样比较方便。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

warrah

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值