前提条件:
- 每个节点设置好/etc/hosts
- 关闭防火墙
- 设置完成SSH免密
-
节点:
- 1.master 主节点、调度节点、参与计算
- 2.node1 计算节点
- 3.node2 计算节点
-
torque安装与配置
-
1、master节点torque部署:(master)即为在master节点操作
-
Step1:将torque-4.2.9安装包传到master节点内
Step2:在root用户下,解压文件(master节点)
-
tar -zxvf torque-4.2.9.tar.gz cd torque-4.2.9
Step3:安装所需要的依赖(master 节点)
yum install libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool-y
Step4:编译安装,其中--with-default-server=master,这个master是你的调度节点主机名,可自行根据自己的配置修改(master节点)
./configure --prefix=/usr/local/torque-4.2.9 --with-scp --with-default-server=master && make && make packages && make install
Step5:复制配置文件(master)
cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
Step6:启动
for i in pbs_server pbs_sched pbs_mom trqauthd; do chkconfig --add $i; chkconfig $ion; done
Step7:设置环境变量,其中提示y/n时,输入y继续(master)
TORQUE=/usr/local/torque-4.2.9
echo "TORQUE=$TORQUE" >>/etc/profile
echo "export PATH=\$PATH:$TORQUE/bin:$TORQUE/sbin" >>/etc/profile
source /etc/profile
./torque.setup root
Step8:启动pbs_server、pbs_sched、pbs_mom、trqauthd几个服务(master)
qterm -t quick
for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i start; done
说明:Torque主要是由三个主要部件组成
pbs_server :服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched :调度守护进程,负责调度作业,位于服务节点上
pbs_mom :守护进程, 负责监控本机并执行作业,位于所有计算节点上
Step9:将所有的节点主机名添加到配置文件,可同时将每个节点的CPU个数添加,2代表核心数,顺序、核心数可自行更改(master)
vim /var/spool/torque/server_priv/nodes
Step10:添加控制节点名称(master)
vim /var/spool/torque/mom_priv/config
添加
pbsserver master
logevent 255
Step11:启动torque,查看torque启动状态(master)
查看pbs服务启动状态
ps -e | grep pbs
启动pbs相关所有服务
for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i restart; done
查看节点状态,状态为free即为正常
至此,master节点部署完毕
2、node节点torque部署:这里仅演示一个节点部署方法,其它节点一样,本次以node1节点做演示
Step1:在node1节点root目录中创建torque目录(node1)
mkdir torque
Step2:将master节点中的torque安装文件复制到node1节点,确保当前在torque-4.2.9目录中(master)
scp torque-package-{mom,clients}-linux-x86_64.sh node1:/root/torque
scp contrib/init.d/{pbs_mom,trqauthd} node1:/etc/init.d/
Step3:node1节点中切换到torque目录中,执行安装torque(node1)
./torque-package-clients-linux-x86_64.sh --install
./torque-package-mom-linux-x86_64.sh --install
Step4:添加控制节点名称(node1)
vim /var/spool/torque/mom_priv/config
添加
pbsserver master
logevent 255
Step5:启动pbs服务(node1)
for i in pbs_mom trqauthd; do service $i start; done
Step6:重启master节点pbs服务(master)
qterm -t quick
service pbs_mom restart
service pbs_server restart
qnodes
可以看到master节点和node1节点均为free状态,至此所有部署完成
3、torque多节点调度测试
后续更新