HDFS 小文件处理

最新推荐文章于 2024-07-25 20:59:28 发布

星有印象

最新推荐文章于 2024-07-25 20:59:28 发布

阅读量1.5k

点赞数 2

文章标签： hadoop

本文链接：https://blog.csdn.net/a6a6a_6/article/details/123837152

版权

1）会有什么影响

（1）1个文件块，占用namenode内存150字节

1亿个小文件*150字节

1 个文件块 * 150字节

128G能存储多少文件块？ 128 * 1024*1024*1024byte/150字节 = 9亿文件块

导致运行的效率很低，每个task处理的数据都很少，每个并行计算的task数据量都很少，本身这些数据存储在hdfs（磁盘），寻址也需要时间，如果处理都是小文件，就会导致处理的很慢

2）怎么解决

（1）采用har归档方式，将小文件归档

（2）采用CombineTextInputFormat

（3）有小文件场景开启JVM重用；如果没有小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间

<property>

    <name>mapreduce.job.jvm.numtasks</name>

    <value>10</value>

    <description>How many tasks to run per jvm,if set to -1 ,there is  no limit</description>

</property>

最根本的解决方案，不产生小文件，自己写代码，难度比较大（百度出代码，修改）

就是让hdfs上的小文件不产生，要么就是你在上传文件之前，如果有小文件你就合并，先获取到文件的大小，我们的文件合并为多大，每个文件的大小是比较固定的128M, 开启线程，采用多线程的方式，如果文件在hdfs已经有了，上把合并的文件写入临时目录，再把这个目录的文件覆盖掉之前的小文件目录，如果在hdfs 上没有，直接写入

如果数据是通过flume采集过来的，flume的hdfs sink配置3个参数，生成的文件的滚动策略，这样可以避免小文件的产生。