java hive重试_Hive 子进程死循环问题排查

线上有个任务失败了,查看工作机器上运行的进程情况,有个进程比较陌生,如下图

AAffA0nNPuCLAAAAAElFTkSuQmCC

查看进程关系,可以看到这是hive起的一个子进程,如下图

AAffA0nNPuCLAAAAAElFTkSuQmCC

使用top命令查看cpu 使用情况,可以看到1193这个线程cpu占用总是接近100%,如下图

AAffA0nNPuCLAAAAAElFTkSuQmCC

使用jstack命令,查看线程状态

AAffA0nNPuCLAAAAAElFTkSuQmCC

看样子是在读取conf 文件,没有什么异常。然而过了一会儿再看这个状态,线程栈没有丝毫变化。而cpu使用仍然接近100%。一般来说这是进入死循环了。重试那个hive命令,发现问题无法重现,排除了conf文件的配置问题。使用strace命令查看系统调用情况

AAffA0nNPuCLAAAAAElFTkSuQmCC

发现也没有系统调用,确认是在用户态。那么应该就是代码中的bug,查看DefferredDocumentImpl.getNodeExtra 函数的代码,然而并没有循环。

这就很奇怪了,看getNodeExtra函数的代码,思来想去也不可能进入死循环。难道是内存漏洞引起的指令指针被改写,导致执行到莫名其妙的地方去了?这个时候我就希望看到1193这个线程现在在执行什么指令,总之应该不是getNodeExtra这个函数。那么jstack能不能输出这个信息呢。jstack --help看一下

AAffA0nNPuCLAAAAAElFTkSuQmCC

虽然不是我想要的具体在执行什么指令,不过也许问题确实出在本地方法栈呢。试一下

AAffA0nNPuCLAAAAAElFTkSuQmCC

可见这是一个小概率的并发问题,由于我们线上集群也是第一次出现,决定暂不处理,直接重试任务即可。

作者:群演_

链接:https://www.jianshu.com/p/0949f47ed0aa

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值