hive 小文件过多怎么解决

最新推荐文章于 2024-05-18 16:10:40 发布

搬砖的小子

最新推荐文章于 2024-05-18 16:10:40 发布

阅读量1.4k

点赞数

分类专栏：大数据文章标签： hive hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/longzorg_cn/article/details/128227671

版权

大数据专栏收录该内容

34 篇文章 1 订阅

订阅专栏

hive 中的小文件确定是向 hive 表中导入数据时产生。小文件过多产生的影响

首先对底层存储HDFS来讲，HDFS自己就不适合存储大量小文件，小文件过多会致使namenode元数据特别大, 占用太多内存，严重影响HDFS的性能。

对 hive 来讲，在进行查询时，每一个小文件都会当成一个块，启动一个Map任务来完成，而一个Map任务启动和初始化的时间远远大于逻辑处理的时间，就会形成很大的资源浪费。并且，同时可执行的Map数量是受限的。

**怎么解决小文件过多**

1.使用 hive 自带的 concatenate 命令，自动合并小文件

注意：
一、concatenate 命令只支持 RCFILE 和 ORC 文件类型。
二、使用concatenate命令合并小文件时不能指定合并后的文件数量，但能够屡次执行该命令。
三、当屡次使用concatenate后文件数量不在变化，这个跟参数 mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关，可设定每一个文件的最小size。

2.调整参数减小Map数量

3.减小Reduce的数量

reduce 的个数决定了输出的文件的个数，所以可以调整 reduce 的个数控制 hive 表的文件数量，hive中的分区函数 distribute by 正好是控制MR中 partition 分区的，然后通过设置 reduce 的数量，结合分区函数让数据均衡的进入每个 reduce 即可。

4.使用hadoop的archive将小文件归档
Hadoop Archive简称HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它可以将多个小文件打包成一个HAR文件，这样在减小namenode内存使用的同时，仍然容许对文件进行透明的访问。

注意:
归档的分区能够查看不能 insert overwrite，必须先 unarchive。

了解更多大数据课程相关技术知识欢迎关注小编！

搬砖的小子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive 小文件过多怎么解决

hive 中的小文件确定是向 hive 表中导入数据时产生。小文件过多产生的影响首先对底层存储HDFS来讲，HDFS自己就不适合存储大量小文件，小文件过多会致使namenode元数据特别大, 占用太多内存，严重影响HDFS的性能。对 hive 来讲，在进行查询时，每一个小文件都会当成一个块，启动一个Map任务来完成，而一个Map任务启动和初始化的时间远远大于逻辑处理的时间，就会形成很大的资源浪费。并且，同时可执行的Map数量是受限的。**怎么解决小文件过多**1.使用 hive 自带的 concatenat
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。