Torque

1.1.   Toque简介:
Torque为以前的免费的作业调度软件openpbs的升级,openpbs目前已经收费,torque是它的开源版。torque的作业调度系统一共包含三个模块,对应三个后台进程,分别为pbs_server,pbs_sched, 和 pbs_mom,其中pbs_server和pbs_sched在管理节点启动,pbs_mom 在计算节点启动,pbs_server在管理节点负责与计算节点中的pbs_mom通讯,从而做到对资源的管理,pbs_sched负责队列的调度策略等等。
1.2.   安装前要求:
集群rsh配通
集群要有一个nfs共享目录,用于放置torque源包。
假设管理节点为node253,IP为10.10.10.253,有20个计算节点,为node1到node20,IP从10.10.10.1到10.10.10.20。共享目录为node253的/public目录,其它节点都已经mount上node253:/public。
 
1.3.   Torque在管理节点的安装与配置
1.3.1.      在Server节点上的安装
I下载安装包 torque-2.3.0.tar.gz,将torque解压到nfs的共享路径(/public/sourcecode)
II安装方法如下:
[root@node253]# cd /public/sourcecode
[root@node253]# tar -xzvf torque-2.3.0.tar.gz
[root@node253 ]# cd torque-2.3.0
[root@node253]# ./configure
[root@node253]# make
[root@node253]# make install
安装完毕,系统会将二进制文件和文档,手册等安装在/usr/local/下,而将配置文件安装在系统的/var/spool/torque目录下。
1.3.2.      在Server节点上的配置
I 编译安装完源码程序后,在源码路径下有可执行程序torque.setup,该命令是用来定义服务端管理作业调度系统的用户,同时创建作业调度的数据库(new batch database), 产生初始的默认队列。
[root@node253]#./torque.setup root
 
II添加所有计算节点的节点名到 /var/spool/torque/server_priv/nodes
[root@node253]# for i in `seq 1 20`; do echo node$i np=8; done >/var/spool/torque/server_priv/nodes
注:此文件在编译完成后并不存在,所以你需要