CentOS7.5安装多节点Torque6.1.2

本文记录了在安装TORQUE集群时遇到的两个主要问题及其解决方案。问题A是pbs_mom服务异常,通过service pbs_mom purge和restart解决了。问题B是由于防火墙未关闭导致的节点间通信故障,关闭防火墙后恢复正常。此外,建议使用qterm命令检查节点间的SSH无密码访问设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是基于以下三篇博客的内容进一步说明我安装过程遇到的问题,以及解释几条命令。

其中通过这篇获得了下载链接:https://www.cnblogs.com/smbin/p/8492470.html

以下两篇是重点参考的安装方法:

https://blog.csdn.net/u012460749/article/details/78583026

https://blog.csdn.net/dream_angel_z/article/details/44225669/

简要说明以下安装步骤:

以下所有操作都是root用户操作

1、建立SSH无密码访问看https://blog.csdn.net/dream_angel_z/article/details/44225669/

2、安装主节点和计算节点的torque详细过程见https://blog.csdn.net/u012460749/article/details/78583026

3、遇到的问题和注意事项

     根据我的经验,按照博文里的步骤来基本不会出错,我遇到的新问题主要有两个。

A、子节点的服务pbs_mom出问题,pbs_mom running but subsys not locked

这个问题在主节点和计算节点都有,其他服务正常但这个服务不正常。我查了很久,别人遇到的问题是pbs_mom dead but subsys  locked。感觉和我的相反,百度、Google了半天也没找到方法,中间重装、restart、stop都试过了,无法解决问题。最后无意中试了这个命令

service pbs_mom purge

service pbs_mom restart

最后就正常了,我对其中的原理不懂

如果service pbs_mom purge之后还是不行可能需要先进行

service pbs_mom stop

然后再

service pbs_mom purge

这时候查看服务状态发现already running了不需要 start或者restart了。

如果没有running就

service pbs_mom start一下应该就可以了。

B、防火墙的问题真的很重要,我关闭了计算节点的防火墙,搞了半天忘记关主节点的防火墙了,一开始没发现,每次运行qnodes只有主节点是free,计算节点都是down。而且一直误以为是主节点的/etc/hosts没弄对,知道有一次在计算节点运行了qterm命令出现以下错误:

qterm: could not connect to server '' (113) No route to host

看字面意思我就感觉确实是主节点和计算节点之间的通信出问题了,最后猛然想起是主节点防火墙没关。真是白白折腾了半天。

不过发现,在计算节点运行qterm命令应该可以根据反馈的结果判断节点之间的通信是否正常,也就是ssh之间无命令登陆是否设置正确。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值