Spark产生小文件的原因及解决方案

ZenPower

已于 2024-04-10 10:39:35 修改

阅读量448

点赞数 4

文章标签： spark 大数据分布式

于 2024-04-08 16:45:52 首次发布

本文链接：https://blog.csdn.net/mypowerhere/article/details/137507922

版权

一、小文件的定义

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之为小文件。

二、小文件产生过多的原因

写操作不当：如果在写数据时，设置的分区策略不当，或者没有指定合适的压缩策略，则可能产生大量小文件。
数据倾斜：如果spark任务处理的数据，某一个分区的数据量远远大于其他分区时，可能会导致该分区产生大量小文件。
其他待验证原因。

三、小文件过多的影响

对NameNode产生压力：HDFS中的每个文件都需要在NameNode里维护一份元数据信息（文件目录、大小等信息），大量小文件则会占用过多的NameNode内存，影响集群稳定性。
增加文件读取时间：如果某个表在HDFS中存放有大量的小文件，在访问该表获取数据时，需要先从NameNode获取元数据信息，再从DataNode读取对应数据，大量的小文件会导致频繁访问，影响读写效率。
容易导致task数量过多，且影响计算性能：spark计算时，每个小文件通常被视为一个单独的分区，而spark会为每个分区启动一个或多个task来进行计算，大量小文件会导致启动过多的task，有可能导致内存超出报错（Total size of serialized results of * tasks is bigger than spark.driver.maxResultSize）；其次，每个task的启动和销毁也会消耗时间，影响效率。

四、小文件查看方式

查看文件数量

hadoop fs -ls /user/hive/warehouse/temp.db/table_target/dt=20240101/* | wc -l

查看文件大小

hadoop fs -du -h /user/hive/warehouse/temp.db/table_target/dt=20240101/*

五、小文件合并方案

distribute by rand()

distribute by可以确保相同键值的数据分配到相同的分区中，减少数据的移动，提高聚合、连接、排序等操作的效率。

--默认N = 1
insert overwrite temp.table_target 
select * from temp.table_source distribute by rand();

--更精准的做法，N为正整数，由：文件大小(MB)/128(MB) 得出
insert overwrite temp.table_target 
select * from temp.table_source distribute by ceil(rand() * N);

/*+ repartition(N) */

repartition只是coalesce接口中shuffle为true的简易实现，对数据进行重新分区，由于开启了shuffle，所以既可以扩大分区数，也可以缩小分区数，缺点是会有磁盘操作，性能差些。

其中N取正整数，可以由：单个分区内文件总大小（MB） / 128(MB) 得出，确定N值后，该hint可以实现单个分区内只生成N个文件的目的。

--N为重新分区的个数，正整数，由：单个分区内的文件大小(MB)/128(MB) 得出
insert overwrite temp.table_target 
select /*+ repartition(N) */ * from temp.table_source;

开发额外的小文件压缩程序，用于日常的小文件压缩

ZenPower

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark产生小文件的原因及解决方案

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之为小文件。
复制链接

扫一扫