【Hive】云任务大量卡住故障分析

最新推荐文章于 2024-07-29 11:06:33 发布

盼“星辰”

最新推荐文章于 2024-07-29 11:06:33 发布

阅读量1.3k

点赞数

文章标签： hive jvm java 大数据 hdfs

本文链接：https://blog.csdn.net/m0_37956758/article/details/127025060

版权

项目场景：

上一章节我们简单介绍到了JVM调优相关的知识，本章节结合日常故障处理进一步说明相关的使用

问题描述

在云上，hive任务出现大面积卡住的现象，但并无任何报错信息，具体如下：
在这里插入图片描述

原因分析：

- 考虑hivemetastore故障：

经过很多元数据操作测试，并未发现异常，予以排除。

- 考虑hiveserver2连接数超限问题：

经排查hiveserver2虽然有189个连接数，但并未超过设置的hive.server2.thrift.max.worker.threads上限，予以排除。

- 考虑hiveserver2的JVM问题：

经观察资源使用正常，并没有触发该问题的可能，予以排除，当时的jvm使用情况如下：

在这里插入图片描述

考虑锁机制相关问题：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

盼“星辰”

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
【Hive】云任务大量卡住故障分析

hive卡住，故障排查
复制链接

扫一扫

Hive Metastore 和 Hiveserver 2的性能上限

houzhizhen的专栏

01-13

2058

如果抛出以下错误，则建议调大 hive.server2.async.exec.wait.queue.size。metastore 可以建立 10000 个连接，并且每个连接都可以发出请求。hive-server2 仅能建立 500 个连接，受以下参数的控制。但是这些连接不能同时发出请求，受以下两个参数的控制。

Hive执行复杂查询突然卡住不动解决办法

zp17834994071的博客

09-02

7261

有时使用hive进行一般的查询操作时，执行的很快，但是一遇到多表复杂查询就会出一个问题，会发现程序一直卡着不动了，也不报错，开始以为是mapreduce计算的慢，所以程序执行有点卡断，可是过了好一会还是卡着不动，这就有点无语了，最后没办法只有强制kill. 查看日志没有报错. 查看mr状态发现一直在ACCEPTED状态.说明mr有问题,执行mr job ,果然卡死. 查询得知是因为yarn的物理内存过少,建议配置为自己的电脑运行内存大小或二倍运行内存大小. 这时时候就要到hadoop的安装目录下的/etc

1 条评论您还未登录，请先登录后发表或查看评论

hive线程数详解

sunxunyong的博客

06-17

1272

hive.server2.async.exec.threads 默认100，设置计算线程的数量。hive.exec.input.listing.max.threads 默认值为15，Hive用来监听输入文件的最大线程数。hive.server2.async.exec.wait.queue.size 默认100，是等待队列的长度，HiveServer2 收到请求后，先放到等待队列里。如果抛出以下错误，则建议调大 hive.server2.async.exec.wait.queue.size。

hive锁表彻底解决（全网最全，无坑）

weixin_51485976的博客

02-02

1万+

解决方案 1.进入hive，执行 show locks; 查看锁表情况，发现如下这里简单说一下：hive存在两种锁，共享锁Shared (S)和互斥锁Exclusive (X）触发共享锁的操作是可以并发执行的但是触发互斥锁，那么该表和该分区就不能并发的执行作业了。 2.尝试解锁： unlock table 表名;（可以在hive命令行操作，也可以在HUE操作）报错： FAILED: Execution Error, return code 1 from org.apache.hadoop.

【大数据生态】HIVE运行卡死没反应

m0_64280569的博客

03-24

1294

其实呢，我最开始就开始尝试打开yarn客户端界面了，但是没有打开，其实我发觉到我用的地址错误了，因为yarn并没有部署在了hadoop102上面，而我发觉之后立马改正，可还是打不开，我不由得觉得我的地址是不是真的输错了，哈哈哈哈，挺逗的，卡了好几分钟，最后在部署yarn的虚拟机(hadoop103)上面jps了一下，发现真的没有启动集群。最后，我发现这位博主写的其实没错，没有解决是因为我没进行前面的操作(1,2,3,4)。我也是直接进行了最后的3条指令，宝贝，结果还是卡着了。等待了几分钟，无果，被迫。

hive任务reduce步骤卡在99%原因及解决

h952520296的博客

06-01

3140

我们在写sql的时候经常发现读取数据不多，但是代码运行时间异常长的情况，这通常是发生了数据倾斜现象。数据倾斜现象本质上是因为数据中的key分布不均匀，大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，从而拉慢了整个计算过程速度。本文将介绍如何通过日志分析，判断数据中的哪个key分布不均，从而导致了数据倾斜问题。

Hive查询问题（卡住）

小菜

07-27

5325

一、现象几乎全部SQL语句都不能查，卡死在那里，过很久之后可能会报 FAILED: Error in acquiring locks: Error communicating with the metastore 但是查看后台hive的日志，没有任何异常 SQL语句比如： select 1； show tables；二、定位原因 1、重启hiveserver2，MetaStore等服务都没有效果 2、考虑是hive元数据的问题查看hive元数据表的使用情况 show OPEN

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

m0_46689661的博客

12-05

9737

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

sqoop导出到mysql数据量很大_sqoop export导出 map100% reduce0% 卡住的多种原因及解决...

weixin_42401025的博客

02-11

1897

我称这种bug是一个典型的“哈姆雷特”bug，就是指那种“报错情况相同但网上却会有各种五花缭乱解决办法”的bug，让我们不知道哪一个才是症结所在。先看导入命令：[root@host25 ~]#sqoop export --connect "jdbc:mysql://172.16.xxx.xxx:3306/dbname?useUnicode=true&characterEncoding=ut...

spark、hadoop、storm、solr、es在车辆分析上的分析与比较

muyannian的专栏

03-12

6999

自2012年以来，公安部交通管理局在全国范围内推广了机动车缉查布控系统（简称卡口系统），通过整合共享各地车辆智能监测记录等信息资源，建立了横向联网、纵向贯通的全国机动车缉查布控系统，实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位和

数仓建模—Data Warebase AI 时代数据平台应当的样子

热门推荐

Dreamy_zsy的博客

01-15

2万+

问题： hive任务执行进度卡在99%是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后，总结如下。 1. 数据倾斜原因 1.1操作：关键

HiveServer2 Service Crashes(hiveServer2 服务崩溃)

cclovezbf的博客

10-07

1771

Troubleshooting Hive | 5.9.x | Cloudera Documentation1.hive分区表太多(这里没有说具体数量。)2.并发连接太多，我记的以前默认是200个连接 3.复杂的hive查询访问表的的分区4.hs2实例数太少如果存在这些情况中的任何一种，Hive可能运行缓慢，或者可能崩溃，因为整个HS2堆内存已满。1.hs2服务直接挂掉，或者你开启新会话失败。2.hs2服务看起来是好的，但是你连接被拒绝3.查询提交重复失败4.查询一直在提交，查询时间长这里太长了，我直接用我自

Hive的堵塞问题和表锁问题原因查找

Auspicious航的博客

08-02

1236

当一个用户或任务需要对表进行修改（如插入、更新、删除等操作）时，Hive会自动获取一个表级锁，以防止其他用户或任务同时修改该表。排他锁适用于对表进行写操作，当一个用户或任务获取到了一个表的排他锁时，其他用户或任务将无法修改该表。如果一个用户或任务需要对表进行修改，但另一个用户或任务已经获取了表的锁，那么该用户或任务将被阻塞，直到锁被释放。需要注意的是，解锁表是一个谨慎的操作，应该确保在不再需要锁的情况下才进行解锁。网络问题：如果集群之间的网络连接出现问题，可能会导致任务之间的通信延迟，从而造成堵塞。

使用Hive和Python进行数据分析

在实际操作中，Hive通常用于处理大量数据的ETL（提取、转换、加载）过程，而Python则用于更复杂的分析和建模任务。例如，在上述例子中，首先创建了一个名为"user_foods"的Hive表，以存储用户的食物消费记录，按照...