项目场景:
spark运行中,job一直在执行中,运行过程中会有hdfs, db的交互
问题描述:
有个同学跟我反映问题,spark运行中,job一直在执行中,executor,driver都在跑,没有任何异常, 正常是很快跑完,但跑10min都动不动,很奇怪,让我帮忙看看
原因分析:
碰到问题,处理问题思路: 1.先确定driver,executor是否正常,从页面看,是正常 2.看看任务在做什么,看看executor的task在干忙什么,通过executor tab把正常运行任务的task对应executor的stack打出来看看 3.问题发现:如下图:线程是running状态,但有线程锁 4.百度一下查锁的命令,查锁命令如下, 执行一下,发现确实是被其他同学上锁了。。。,问题排查、处理完毕,收工 select * from v$locked_object t1, v$session t2, dba_objects t3 where t1.session_id = t2.sid and t1.object_id = t3.object_id order by t2.logon_time;解决方案:
任务卡住的原因是表被锁,释放锁就行。关键是: 排查问题的思路!!!找出真正的问题,fix!