spark history中sql的执行时间超长,分钟级的sql执行几个小时都没结束
在job的视图中看到有job一直在running中
打开卡住的job,核对相应的stage和task
根据对应的卡住的task找到出问题的agent节点
到对应的节点上 ,通过executor id找到有问题的进程ID
ps aux | grep "--executor-id 23"
拿到进程id后,通过jstack pid找到对应进程的栈。
前后间隔5分钟左右,抓取两个时间点的栈,对比两个栈中,RUNNABLE未发生变化的栈,大概率就是导致任务的函数栈。