PBS简介
PBS是一个批处理作业和计算机系统资源管理软件包,它就可以接受批处理作业、shell脚本和控制属性,作业运行前对其储存并保护,然后运行作业,并且把输出转发回提交者。PBS可以被安装并配置运行在单机系统或多个系统组来支持作业处理。由于PBS的灵活性,多个系统可以以多种方式组合。
PBS安装环境及所需安装包
本文以Red Hat Enterprise Linux 6.3为例,在VM上运行iso镜像,安装Torque4.2.3,首先需要安装gcc编译器,否则在安装torque时会提示你不能make,需要安装一些安装包。系统提示的安装包可以在iso镜像中找到,在虚拟机设置中可以选择显示,打开光盘
Red Hat Enterprise Linux 6中会发现packages文件夹,在文件夹中可以找到你所需的安装包,在安装过程中可能会提示你安装其他安装包,比如安装openssl-devel时会提示你安装krb5-devel以及其他安装包,找到你的系统所需要的安装包(32位为i586,64位为x86_64)递归进行安装,并安装gcc编译器(也可在光盘中找到)。
PBS安装前配置
- 配置基于非root账号的管理头节点到各个通用计算服务节点的ssh无密码互联,方法见我的另一篇博客:点击这儿
- TORQUE提交作业的命令qsub不能以root帐号运行,故此非root帐号将用作提交任务
- 同时TORQUE作业队列是和非root帐号做一对一绑定的,创建队列时也需要该非root帐号
- 配置集群中的 hosts 解析关系(具体的配置方法见这个专题中的第一篇博客:点击这儿),这儿不配的话不再是速度快慢的问题了,而是pbs管理头节点根本无法发现集群中的通用计算服务节点,总会报如下错误:
pbsnodes: Server has no node list MSG=node list is empty - check 'server_priv/nodes' file
- 在管理头节点上安装torque-4.2.3.1
./configure --prefix=/usr/local/torque-4.2.3.1 make make install
- 产生需要安装到通用计算服务节点上的包(这一步具体产生哪些包,分别是什么作用等我完全搞明白了再来补充),具体的安装过程放在后面配置通用计算服务节点的时候讲解
make packages
- 添加 torque 的可执行文件目录到环境变量 $PATH(管理头节点、所有通用计算服务节点都添加