影响:
1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode
的内存,制约集群的扩展。(主要影响)
2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个maptask会起一个jvm进程,进程的
开启销毁会严重性能。(jvm复用)
产生场景:
1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储
到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。
2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件,这个小文件就是MR任务reduce
端的输出文件。
解决:insert overwrite table t_new as select * from t_old;
3、hive中执行简单过滤操作,符合过滤条件的数据存在很多block块中,只走map,map输出有很多小文
件。
开启map端的聚合。
4、mapreduce正常执行产生小文件。
将mapreduce输出不直接写hdfs,而是写入到hbase中。
设置map端文件合并及reduce端文件合并。
5、输入数据文件为小文件。
小文件合并后再计算。
CombineFileInputFormat: 它是一种新的inputformat,用于将多个文件合并成一个单独的
split,另外,它会考虑数据的存储位置。
通用处理方案:
1、Hadoop
Hadoop中HDFS小文件产生场景及其处理方案
最新推荐文章于 2024-05-15 13:59:01 发布