小文件合并

最新推荐文章于 2024-08-03 21:57:01 发布

carpenterworm_

最新推荐文章于 2024-08-03 21:57:01 发布

阅读量525

点赞数

文章标签： hadoop hive 大数据

本文链接：https://blog.csdn.net/carpenterworm_/article/details/127130723

版权

小文件产生的原因

当文件的大小远远小于HDFS block块的大小（hadoop2：128m）就可以当作是一个小文件；具体产生的原因包括一下：
1）实时计算时，如果窗口开的小，在hdfs上会产生很多小文件
2）离线计算，批处理时，在spark或者mr时，没有设置好partition或者reduce的个数，会产生小文件
3）Flume采集数据时，没有配置好具体的滚动策略，会产生小文件
4）数据源本身存在很多小文件

小文件的影响

1）元数据影响：namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存。而HDFS是适合存储大文件的，很小的文件如果很多的话，Name Node的压力会非常大，因为每个文件都会有一条元数据信息存储在Name Node上，小文件非常多也就意味着在Name Node上存储的元数据信息非常多。Hadoop是适合存储大数据的，所以可以通过Sequence File将小文件合并，从而获得更高效率的存储和计算。Sequence File中的Key和Value可以是任意类型的Writable或者自定义Writable类型。
2）mr任务影响：在mapreduce中，对每个文件都会启动一个map task，如果小文件太多，影响性能；
3）在hdfs的读流程里，如果小文件越多，寻址花费的时间越多