Hive小文件合并

最新推荐文章于 2024-02-13 22:54:06 发布

Signal_Du

最新推荐文章于 2024-02-13 22:54:06 发布

阅读量396

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/Kikitious_Du/article/details/115252553

版权

hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

为什么要合并小文件

1.每个文件在NameNode中的存储信息大约占150字节，会影响NameNode存储其他有用的文件信息，因为NameNode的容量是固定的
2.如果文件过小，每个文件的大小远低于128M，每个文件作为一个分片输入，就会对应相应数量的MapTask，浪费资源，效率低下，因为MapTask的开启也是耗时的

如果输入是小文件，需要合并输入的话

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

如果是合并输出的大量小文件的话

Map输出合并（默认就是true，可以不用设置）：
hive.merge.mapfiles=true
Reduce输出合并：
hive.merge.mapredfiles=true
合并文件的大小：
hive.merge.size.per.task=256000000

Signal_Du

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive小文件合并

为什么要合并小文件1.每个文件在NameNode中的存储信息大约占150字节，会影响NameNode存储其他有用的文件信息，因为NameNode的容量是固定的2.如果文件过小，每个文件的大小远低于128M，每个文件作为一个分片输入，就会对应相应数量的MapTask，浪费资源，效率低下，因为MapTask的开启也是耗时的如果输入是小文件，需要合并输入的话hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
复制链接

扫一扫