pbs安装

最近要给新集群装PBS作业管理系统,顺便把安装全流程整理一下分享给有需要的朋友。

1. 主机名修改
为了便于管理,可以重新修改一下集群每个节点的主机名。
  1. sudo vi /etc/hostname
复制代码
 
  1. sudo vi /etc/hosts
复制代码

 
请根据ifconfig中的信息,酌情修改主机名对应的ip地址,并且添加计算节点的ip和主机名

2. 建立ssh无密码访问 (参考Linux下多节点SSH无密码互联实现_weixin_30536513的博客-CSDN博客)
假设有3个主机192.168.0.191、192.168.0.192、192.168.0.193需要实现无密码ssh互联访问。
(a)每个节点分别检查是否安装openssh (每个节点都做):如果没有安装ssh,则需要先安装,执行命令:
  1. sudo apt-get install ssh
复制代码
(b)每个节点分别生成公钥和私钥:
  1. ssh-keygen -t rsa
复制代码
以上命令执行后,进行3次回车就行,其中-t后面的参数是指使用的加密协议类型,可以是rsa或者dsa,生成的公钥文件为~/.ssh/id_rsa.pub,私钥文件是~/.ssh/id_rsa,我们用到的是公钥文件。
(c)每个节点上面分别执行公钥拷贝:
  1. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  2. chmod 700 ~/.ssh/authorized_keys
复制代码
(d)把其他节点的id_rsa.pub也就公钥添加到本节点然后分发给其他节点(即公钥合并后共享):
我是在192.168.0.192节点上面进行合并的,所以我在192.168.0.192上面依次执行命令为:
  1. ssh 192.168.0.193 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  2. ssh 192.168.0.191 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  3. scp ~/.ssh/authorized_keys 192.168.0.193:~/.ssh/authorized_keys
  4. scp ~/.ssh/authorized_keys 192.168.0.191:~/.ssh/authorized_keys
复制代码
在上面的命令中,当执行完第2条时,可以查看cat ~/.ssh/authorized_keys查看文件,文件内容已经变成了3行,就是包含了3个节点的公钥。
(e)直接ssh至各个计算节点查看是否已经不需要密码便可登录

3. 安装 Torque 软件
假设集群信息为:
主机名    ip
master    192.168.64.51   (主节点)
slave01   192.168.64.52   (计算节点)

3.1 安装master节点:
首先下载依赖环境和相关库文件:
  1. sudo yum install libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool
复制代码
解压Torque安装包:
  1. tar -zxvf torque-6.1.2.tar.gz
复制代码
设置安装配置信息:
  1. ./configure --prefix=/usr/local/torque --with-scp --with-default-server=master
复制代码
编译安装(make过程中会多次报错,因而中断之后需要继续添加参数make,比如make CFLAGS='-w -fpermissive' ;make CPPFLAGS='-w -fpermissive' ;make CXXFLAGS='-w -fpermissive',自己一个个试吧):
  1. sudo make
  2. sudo make install
  3. sudo make packages
复制代码
复制文件,设为开机启动:
  1. sudo cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/
  2. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo chkconfig --add $i; sudo chkconfig $i on;done
复制代码
设置环境变量:
  1. sudo vi /etc/profile
复制代码
  1. ###Setting for torque###
  2. export PATH=/usr/local/torque/bin:$PATH
  3. export PATH=/usr/local/torque/sbin:$PATH
  4. export LD_LIBRARY_PATH=/usr/local/torque/lib:$LD_LIBRARY_PATH
  5. export PATH=/usr/local/maui/bin:$PATH
  6. export PATH=/usr/local/maui/sbin:$PATH
  7. export LD_LIBRARY_PATH=/usr/local/maui/lib:$LD_LIBRARY_PATH
复制代码
  1. source /etc/profile
复制代码

编辑/etc/ld.so.conf 加入/usr/local/lib:
  1. include ld.so.conf.d/*.conf
  2. /usr/local/lib
复制代码
  1. sudo /sbin/ldconfig /etc/ld.so.conf
复制代码

切换到root下设置Torque的管理账户:
  1. ./torque.setup yjy
复制代码
切换回用户账户,启动服务:
  1. qterm
复制代码
  1. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo service $i start;done
复制代码


添加计算节点:
创建/var/spool/torque/server_priv/nodes,写入master,并设置每个节点的cpu物理核数
  1. sudo vi /var/spool/torque/server_priv/nodes
复制代码
  1. master np=20
  2. slave01 np=20
复制代码
创建/var/spool/torque/mom_priv/config文件:
  1. sudo vi /var/spool/torque/mom_priv/config
复制代码
写入
  1. $pbsserver master
  2. $logevent 255
复制代码
重启服务:
  1. for i in pbs_server pbs_sched pbs_mom trqauthd; do sudo service $i restart;done
复制代码
测试:
  1. echo sleep 7 | qsub
  2. qstat -a -n
复制代码
创建队列的默认信息:
  1. qmgr -c 'create queue AMD'
  2. qmgr -c 'set queue AMD queue_type = execution'
  3. qmgr -c 'set queue AMD started = true'
  4. qmgr -c 'set queue AMD enabled = true'
  5. qmgr -c 'set queue AMD resources_default.nodes = 1'
  6. qmgr -c 'set server default_queue = AMD'
复制代码


3.2 安装计算节点:
将master节点下的torque目录下的torque-package*文件copy到slave01节点的torque6文件夹下:
  1. scp torque-package-{mom,clients}-linux-x86_64.sh slave01:torque6
复制代码
将master节点下的torque目录下的contrib/init.d/{pbs_mom,trqauthd}文件copy到slave01节点的/etc/init.d/下:
  1. scp contrib/init.d/{pbs_mom,trqauthd} slave01:/etc/init.d/
复制代码
进入slave01节点的torque6文件夹安装文件:
  1. ./torque-package-clients-linux-x86_64.sh --install
  2. ./torque-package-mom-linux-x86_64.sh --install
复制代码
创建/var/spool/torque/mom_priv/config文件:
  1. sudo vi /var/spool/torque/mom_priv/config
复制代码
写入
  1. $pbsserver master
  2. $logevent 255
复制代码

将pbs_mom 和 trqauthd设为开机启动:
  1. for i in pbs_mom trqauthd; do sudo chkconfig --add $i; sudo chkconfig $i on;done
复制代码
启动服务:
  1. for i in pbs_mom trqauthd; do sudo service $i start;done
复制代码
主节点与计算节点的堆栈大小设为无限制:
  1. sudo sed -i '/END INIT INFO/s//&\nulimit -s unlimited/' /etc/rc.d/init.d/pbs_mom
  2. sudo sed -i '/LimitSTACK/s/=.*/=infinity/' /usr/lib/systemd/system/pbs_mom.service
复制代码

*最后注意,提交任务时,计算节点和主节点的用户必须完全一致,包括UID和GID。

4. 主节点下安装maui插件
进入maui文件夹在root下运行下面的脚本进行安装:
  1. #!/bin/sh
  2. ./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque
  3. #sed -i '/socket\.h/s/$/\n#include \<stdbool\.h\>/' /usr/local/torque/include/pbs_ifl.h
  4. sed -i '/PBSLDFLAGS/s#= .*-ltorque.*#= -L/usr/local/torque/lib -ltorque#' Makefile
  5. #cat Makefile | grep PBSLDFLAGS
  6. make -j4
  7. make install
  8. #cat /usr/local/maui/maui.cfg | grep SERVERHOST
  9. #cat /usr/local/maui/maui.cfg | grep ADMIN1
  10. sed -i '/^MAUI_PREFIX/s/=.*/=\/usr\/local\/maui/' contrib/service-scripts/redhat.maui.d
  11. sed -i '/daemon/s/--user maui/--user root/' contrib/service-scripts/redhat.maui.d
  12. #cat contrib/service-scripts/redhat.maui.d | grep MAUI_PREFIX
  13. #cat contrib/service-scripts/redhat.maui.d | grep daemon
  14. cp contrib/service-scripts/redhat.maui.d /etc/init.d/maui.d
  15. chmod a+x /etc/init.d/maui.d
  16. chkconfig --add maui.d
  17. chkconfig maui.d on
  18. echo "/usr/local/torque/lib" > /etc/ld.so.conf.d/torque.conf
  19. echo "/usr/local/maui/lib" > /etc/ld.so.conf.d/maui.conf
  20. ldconfig
  21. chkconfig pbs_sched off
  22. cp etc/maui.sh /etc/profile.d/
复制代码



最后重启主节点,运行showq命令查看是否正常。


附上Torque + maui 安装包:

链接:百度网盘 请输入提取码
提取码:58al


*如果要重装Torque+maui的话,请停止服务及自启动,并删除以下文件:
  1. for i in pbs_server pbs_sched pbs_mom trqauthd maui.d; do sudo service $i stop;done
  2. for i in pbs_server pbs_sched pbs_mom trqauthd maui.d; do sudo chkconfig $i off;done
  3. sudo rm -r /var/spool/torque
  4. sudo rm -r /usr/local/torque
  5. sudo rm -r /usr/local/maui
复制代码

 
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值