经常出现这种情况,明明子节点是free的,但就是提交不了任务。
可能解决方法:
一:用root用户和普通用户(提交作业的普通用户)从主节点用ssh登录各子节点。防止主节点没有登录节点的权限。
二:qdel all 然后 qterm -t immediate 然后 pbs_server,如果之前的任务还在,那就等等或者重复几次,一直到qstat没有任何东西为止。不过在重新提交任务之前,一定要确定所有的可用节点都已经和主节点取得联系,可以用qnodes -l free查看一下。
三: qmgr -c 'set server node_pack = False' 意思是利用最可能多的节点进行计算,而不是都堆在前面几个节点。然后 qterm -t immediate 然后 pbs_server。
四:在/var/spool/torque/server_priv/nodes中,将down的节点注释掉。
可能解决方法:
一:用root用户和普通用户(提交作业的普通用户)从主节点用ssh登录各子节点。防止主节点没有登录节点的权限。
二:qdel all 然后 qterm -t immediate 然后 pbs_server,如果之前的任务还在,那就等等或者重复几次,一直到qstat没有任何东西为止。不过在重新提交任务之前,一定要确定所有的可用节点都已经和主节点取得联系,可以用qnodes -l free查看一下。
三: qmgr -c 'set server node_pack = False' 意思是利用最可能多的节点进行计算,而不是都堆在前面几个节点。然后 qterm -t immediate 然后 pbs_server。
四:在/var/spool/torque/server_priv/nodes中,将down的节点注释掉。