记录一次因HDFS小文件导致的HiveSQL异常耗时的问题排查和解决

首先,发现这个问题是在执行一个非常简单的统计表数据量的sql时,发现耗时竟然需要一个多小时,而且该表数据量只有一亿四千万条左右

--该查询耗时一个多小时,但结果数据只有一亿多条,原因待调查
select count(0) from ads_ship_NodeException_data;

耗费时间如下
在这里插入图片描述
首先,先找一张差不多数据量的表执行相同的sql,排查是否为集群机器的问题,比如cpu、磁盘等,虽然这种可能性不是很大

--该表3个分区的数据量预估在一亿左右
select count(0) from dwd_dynamic_format_data
where dt = '2023-02-01' or dt = '2023-02-02' or dt = '2023-02-03';

查询结果为125431044条数据,和1亿四千万条差一点,但是执行时间只有30秒,两者差距太明显了
在这里插入图片描述到这里排除了集群机器的问题,然后肯定也不是sql的问题,毕竟就一个最简单的count语句,接下来深入观察两张表在hdfs中的存储状态
在这里插入图片描述
在这里插入图片描述

可以发现同样的数据量,但是底层的存储文件完全不同,很明显就是小文件的问题,但是其中的差距太大了,难道小文件的破坏力这么强大?接下来统计两张表详细的分区数和小文件数量
该表有370个分区,六万多个小文件
在这里插入图片描述
在这里插入图片描述

再来看看第二张表3个分区的文件数量
在这里插入图片描述到这里,问题基本上已经排查清楚了,至于怎么解决,方法是非常多的只要把文件数量减小就可以,我的解决方法是建一张sequencefile的表然后将数据导入。
在这里插入图片描述测试表明,两个分区两百多个小文件原来查询耗时一分多钟,导入sequencefile的表中查询耗时只有0.1秒,进入hdfs查看了一下两个分区只有四个文件,成功解决。

在这里限于时间只是选择一个简单的方法做一下测试,证明小文件的危害性。解决小文件的办法其实是非常多的,并不算一个多复杂的问题,恶心之处在于很多时候无法避免,然后又要花额外的时间进行处理。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
如果Hive在使用"overwrite"命令时没有覆盖原始文件,您可以按照以下步骤来排查HDFS配置问题和Metastore问题: 1. HDFS配置问题: - 检查HDFS的配置文件,通常是hdfs-site.xml和core-site.xml。确保没有设置任何可能影响文件覆盖的选项,例如`dfs.permissions.enabled`或`dfs.client.use.datanode.hostname`等。 - 验证HDFS的权限设置。确保Hive用户具有足够的权限来删除文件。您可以使用Hadoop命令行工具(如hdfs dfs)来手动尝试删除文件,以验证权限是否正确配置。 2. Metastore问题: - 检查Hive Metastore的配置文件,通常是hive-site.xml。确保配置中指定的Metastore URI和数据库信息正确,并且与实际的Metastore匹配。 - 使用Hive命令行界面(CLI)或其他Hive客户端工具,验证表的元数据信息是否正确。您可以使用`DESCRIBE FORMATTED <table_name>`命令来查看表的详细信息,包括数据路径和存储格式等。 - 如果发现元数据信息与实际文件不一致,您可以尝试更新元数据或重新创建表来解决问题。使用`MSCK REPAIR TABLE <table_name>`命令可以修复分区表的元数据。 如果您仍然无法解决问题,建议您查看Hive日志文件,以获取更多详细的错误信息和警告。日志文件通常位于Hive安装目录的日志文件夹下。根据日志中的错误消息,您可以进一步调查和解决问题。 请注意,以上提供的步骤仅供参考,具体的排查过程可能因您的环境和配置而有所不同。如果问题仍然存在,我建议您参考Hive的官方文档或寻求专业的Hive支持来获取更准确和详细的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值