torque 安装排错

一:在管理节点发现某个节点状态为down,这种情况有两种原因

第一种原因:pbs_mom 配置文件错误

1.分析:服务pbs_mom启动后,默认首先去查看/var/spool/torque/mom_priv目录下是否有config文件,如果有则根据该文件下指出的pbsserver的主机名去联系管理节点(以该文件为准),如果没有该文件,则根据/var/spool/torque/server_name文件下指出的pbsserver的主机名去联系管理节点,那么如果这两个文件内指出的pbsserverIP地址该计算节点都不能ping通,那么该计算节点pbs_mom日志就会报如下错误:

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::Inappropriate ioctl for device (25)in tcp_connect_sockaddr, cannot connect to port 9 in socket_connect_addr -errno:101 Network is unreachable

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::mom_server_all_update_stat, Couldnot contact any of the servers to send an update

当然管理节点也会显示该节点状态为down

2.解决方法:

方法:如果在/var/spool/torque/mom_priv目录下存在config文件,修改该文件内$pbsserver的值为正确的管理节点主机名(该计算节点能ping通的主机名)

方法:在/var/spool/torque/mom_priv目录下不存在config文件时,请确保/var/spool/torque/server_name的值为正确的管理节点主机名

 

第二种原因:/var/spool/torque/server_priv/nodes文件内,主机名错误

1.分析:首先在计算节点查看pbs_mom日志,没有发现错误,接着查看管理节点的pbs_server日志,发现如下错误信息:

10/16/201521:22:26;0001;PBS_Server.11915;Svr;PBS_Server;LOG_ERROR::get_node_from_str,Node node1.wjcyf.com is reporting on node node1, which pbs_server doesn't know about

服务pbs_server发现了一个名为node1.wjcyf.com的主机,但是根据get_node_from_str得知主机名应该为node1,所有就不能联系该计算节点

2.解决方法

/var/spool/torque/server_priv/nodes文件内涉及到的计算节点的主机名,全部改为“uname -n”主机名,即如果在计算节点node1上运行命令uname -n得到的主机名为node1,那么该文件内node1的主机名就写为node1,如果是node1.wjcyf.com,就写为node1.wjcyf.com,以此类推


二:明明有资源,但是提交作业后,作业却排队

第一种原因:/etc/hosts文件错误

1.分析:查看/etc/hosts文件后发现,主机名admin.site对应三个IP地址,如下所示

172.16.1.100 admin.site

192.168.10.100 admin.site admin

10.1.1.100 admin.site

2.解决方法:

去除另外两个IP地址的对应关系,只留一个(即一个主机名只能对应一个IP地址),如下所示

192.168.10.100 admin.site admin


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值