任务僵死了,要在root下执行qdel -p作业名,才能删除
qdel -p 12345,
如果作业卡在Torque 中,请尝试以下建议来解决问题:
使用qdel命令取消作业。
强制 MOM 将作业 ID 的讣告发送到服务器。
> qsig -s 0 <JOBID>
您可以尝试在仍列出作业的计算节点上使用momctl命令清除过时的作业。
> momctl -c 58925 -h compute-5-20
将qmgr服务器设置mom_job_sync设置为True可能有助于防止作业挂起。
> qmgr -c "set server mom_job_sync = True"
要检查并查看是否已设置,请使用:
> qmgr -c "p s"
如果上述建议无法删除卡住的作业,您可以尝试qdel -p。但是,由于-p选项会清除作业生成的所有信息,因此不推荐使用此选项,除非上述建议无法删除卡住的作业。
> qdel -p <JOBID>
从计算节点删除卡住作业的最后一个建议是重新启动 pbs_mom。
要进行其他故障排除,请对其中一个卡住的作业运行跟踪作业。然后,您可以使用跟踪作业中显示的时间段的完整服务器日志创建在线支持票证