真心是配了很久很久,但是各种问题一直报错,现在都没有完全解决,简直怀疑人生了,先记录一下吧
首先明确一下配置的环境
机器全都是Cent OS
主机:10.113.10.56
其他节点:10.113.10.57-60
修改所有的主机节点名称
对应关系如下(根据自己实际情况去搞)
10.113.10.56 node1
10.113.10.57 node2
10.113.10.58 node3
10.113.10.59 node4
10.113.10.60 node5
可以使用hostname临时修改,但是建议用hostnamectl永久性修改
hostnamectl set-hostname 新名称
SSH链接免密登录
1.生成密钥
ssh-keygen -t rsa
2.密钥分发
将本机生成的密钥分发给其他的机器
ssh-copy-id -i ~/.ssh/id_rsa.pub Assassin@node2 (可直接填写ip)
3.自行测试
看看重复用ssh登录是否需要多次输入密码
安装Torque
英语好的最好还是按照官网安装了大概需要如下工作
1.下载压缩包
可以用wget或者是用直接从官网上下载吧,并且解压压缩包
tar -xzvf 压缩包
2.安装前环境搭建
(1)安装libxml2-devel等
yum install libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool-y
(2)安装hwloc
首先自然是下载压缩包
yum install gcc make
tar -zxvf hwloc-1.9.1.tar.gz
cd hwloc-1.9.1
./configure
make
make install
应该也需要装
yum install libcgroup
注意我们的后三步其实就是编译安装了
事实上用的是
--disable-server
烦人的节点配置
1.配置hosts文件
sudo vi /etc/hosts
修改成
10.113.10.56 node1
10.113.10.57 node2
10.113.10.58 node3
10.113.10.59 node4
10.113.10.60 node5
2.启动服务
主节点node1
需要执行一下服务
sudo pbs_server -t create (顾名思义就是第一次需要加上-t,或者你想初始化的话用-t)
sudo pbs_sched (调度器)
sudo pbs_mom (当主节点也作为计算节点的时候)
如果之前的服务器启动了可以用kill进程然后在重新启动,或者用systemctl restart重启
从节点
主要需要启动
sudo pbs_mom
3.节点配置
主节点配置
这个是羊神的语句,但是这里拉下了一条!!!需要将队列打开,否则执行的作业就会一直等待Q不运行。
我们需要加上
s(et) q(ueue) abc started=true
这个地方坑了我很久…
还需要将
/var/spool/torque/server_priv/nodes
中加上
node1 np=5
node2 np=5
node3 np=5
node4 np=5
node5 np=5
从节点配置
$pbsserver node1
$logevent 225
注意从节点还要
/var/spool/torque/server_name
修改了!
否则会变成这样