Hadoop中HDFS小文件产生场景及其处理方案

在Hadoop环境中,当系统处理大量小文件时,HDFS可能会面临性能挑战。小文件会增加NameNode的内存负担,影响其元数据管理效率。常见的小文件产生场景包括日志收集、数据备份等。为解决这一问题,可以采用合并文件、使用SequenceFile、Har Archive或Hadoop Archive等策略。这些方法有助于减少NameNode的元数据压力,提高HDFS的性能。
摘要由CSDN通过智能技术生成
影响:
    1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode
的内存,制约集群的扩展。(主要影响)
    2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个maptask会起一个jvm进程,进程的
开启销毁会严重性能。(jvm复用)

产生场景:
    1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储
       到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。
    2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件,这个小文件就是MR任务reduce
端的输出文件。
       解决:insert overwrite table t_new as select * from t_old;
    3、hive中执行简单过滤操作,符合过滤条件的数据存在很多block块中,只走map,map输出有很多小文    
       件。 
        开启map端的聚合。       
    4、mapreduce正常执行产生小文件。
        将mapreduce输出不直接写hdfs,而是写入到hbase中。
        设置map端文件合并及reduce端文件合并。
    5、输入数据文件为小文件。
        小文件合并后再计算。
        CombineFileInputFormat: 它是一种新的inputformat,用于将多个文件合并成一个单独的    
                            split,另外,它会考虑数据的存储位置。
 
    


通用处理方案:
1、Hadoop
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二百四十九先森

你的打赏是我努力的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值