flume做采集的话,怎么解决小文件过多的问题

  1. HDFS存储大量的小文件,有什么影响?
    (1) 元数据层面:每个小文件都有一份元数据,其中包括文件路径、文件名、所有者、所属组、权限、创建时间等,这些信息都保存在namenode中。所以,小文件过多,会占据namenode服务器大量的内存,影响namenode的性能和使用寿命;
    (2) 计算层面:默认情况下,MR会对每个小文件启动一个map任务计算,非常影响计算性能;同时也影响磁盘寻址时间。
  2. 怎么解决小文件过多的问题
    在flume配置中设置三个参数:
    (1) hdfs.rollInterval:文件创建超多少秒时会滚动生成新文件
    (2) hdfs.rollSize: 文件在达到多少个字节时会滚动生成新文件
    (3) hdfs.rollCount:当event个数达到多少个的时候会滚动生成新文件
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值