Hive小文件合并

最新推荐文章于 2024-02-13 22:54:06 发布

abreo

最新推荐文章于 2024-02-13 22:54:06 发布

阅读量296

点赞数

分类专栏：大数据 Hive 文章标签： hive hdfs hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abreo/article/details/111227172

版权

大数据同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Hive常作为Hadoop的后台批处理数据库，其稳定性和高吞吐量毋容置疑。

然而在使用中经常遇到的问题就是产生大量的小文件，当小文件数量积累到一定程度时，会渐渐拖慢系统，乃至崩溃。

小文件过多为什么会拖慢系统呢？

  HIVE作为分布式文件系统，在处理文件时，首先要把文件数据读到内存中，此时每读取一个文件入内存，就会开启一个IO Task，当小文件过多时候，读取数据时就会开启大量task
   在hadoop系统中，开启文件的数量有上线的，我是用的是CDH系统，其默认开启是4096个文件，当然这远远不够，我现在配置是开启65000个文件。当开启task超过这个数量是，
   再读取更多数据，就会处于等待，这时候系统就会越来越慢，为了保证系统的健康稳定，就需要定期合并小文件。

我合并小文件的思路很简单。

就是通过java job 连接Hive来执行下面SQL语句。就是将数据从表中抽出，在重新写回原表。
insert overwrite table table_name select * from table_name;

   当然如果是分区表，则需要循环分区字段进行处理。
   insert overwrite table table_name partition(partitionfield='${value}'
   select * from table_name where partitionfield='${value}'

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive小文件合并

Hive常作为Hadoop的后台批处理数据库，其稳定性和高吞吐量毋容置疑。然而在使用中经常遇到的问题就是产生大量的小文件，当小文件数量积累到一定程度时，会渐渐拖慢系统，乃至崩溃。小文件过多为什么会拖慢系统呢？ HIVE作为分布式文件系统，在处理文件时，首先要把文件数据读到内存中，此时每读取一个文件入内存，就会开启一个IO Task，当小文件过多时候，读取数据时就会开启大量task 在hadoop系统中，开启文件的数量有上线的，我是用的是CDH系统，其默认开启是4096个文件...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。