本文是基于以下三篇博客的内容进一步说明我安装过程遇到的问题,以及解释几条命令。
其中通过这篇获得了下载链接:https://www.cnblogs.com/smbin/p/8492470.html
以下两篇是重点参考的安装方法:
https://blog.csdn.net/u012460749/article/details/78583026
https://blog.csdn.net/dream_angel_z/article/details/44225669/
简要说明以下安装步骤:
以下所有操作都是root用户操作
1、建立SSH无密码访问看https://blog.csdn.net/dream_angel_z/article/details/44225669/
2、安装主节点和计算节点的torque详细过程见https://blog.csdn.net/u012460749/article/details/78583026
3、遇到的问题和注意事项
根据我的经验,按照博文里的步骤来基本不会出错,我遇到的新问题主要有两个。
A、子节点的服务pbs_mom出问题,pbs_mom running but subsys not locked
这个问题在主节点和计算节点都有,其他服务正常但这个服务不正常。我查了很久,别人遇到的问题是pbs_mom dead but subsys locked。感觉和我的相反,百度、Google了半天也没找到方法,中间重装、restart、stop都试过了,无法解决问题。最后无意中试了这个命令
service pbs_mom purge
service pbs_mom restart
最后就正常了,我对其中的原理不懂
如果service pbs_mom purge之后还是不行可能需要先进行
service pbs_mom stop
然后再
service pbs_mom purge
这时候查看服务状态发现already running了不需要 start或者restart了。
如果没有running就
service pbs_mom start一下应该就可以了。
B、防火墙的问题真的很重要,我关闭了计算节点的防火墙,搞了半天忘记关主节点的防火墙了,一开始没发现,每次运行qnodes只有主节点是free,计算节点都是down。而且一直误以为是主节点的/etc/hosts没弄对,知道有一次在计算节点运行了qterm命令出现以下错误:
qterm: could not connect to server '' (113) No route to host
看字面意思我就感觉确实是主节点和计算节点之间的通信出问题了,最后猛然想起是主节点防火墙没关。真是白白折腾了半天。
不过发现,在计算节点运行qterm命令应该可以根据反馈的结果判断节点之间的通信是否正常,也就是ssh之间无命令登陆是否设置正确。