最近要给新集群装PBS作业管理系统,顺便把安装全流程整理一下分享给有需要的朋友。 1. 主机名修改 为了便于管理,可以重新修改一下集群每个节点的主机名。
请根据ifconfig中的信息,酌情修改主机名对应的ip地址,并且添加计算节点的ip和主机名 2. 建立ssh无密码访问 (参考Linux下多节点SSH无密码互联实现_weixin_30536513的博客-CSDN博客) 假设有3个主机192.168.0.191、192.168.0.192、192.168.0.193需要实现无密码ssh互联访问。 (a)每个节点分别检查是否安装openssh (每个节点都做):如果没有安装ssh,则需要先安装,执行命令:
(c)每个节点上面分别执行公钥拷贝:
我是在192.168.0.192节点上面进行合并的,所以我在192.168.0.192上面依次执行命令为:
(e)直接ssh至各个计算节点查看是否已经不需要密码便可登录 3. 安装 Torque 软件 假设集群信息为: 主机名 ip master 192.168.64.51 (主节点) slave01 192.168.64.52 (计算节点) 3.1 安装master节点: 首先下载依赖环境和相关库文件:
编辑/etc/ld.so.conf 加入/usr/local/lib:
切换到root下设置Torque的管理账户:
添加计算节点: 创建/var/spool/torque/server_priv/nodes,写入master,并设置每个节点的cpu物理核数
3.2 安装计算节点: 将master节点下的torque目录下的torque-package*文件copy到slave01节点的torque6文件夹下:
将pbs_mom 和 trqauthd设为开机启动:
*最后注意,提交任务时,计算节点和主节点的用户必须完全一致,包括UID和GID。 4. 主节点下安装maui插件 进入maui文件夹在root下运行下面的脚本进行安装:
最后重启主节点,运行showq命令查看是否正常。 附上Torque + maui 安装包: 链接:百度网盘 请输入提取码 提取码:58al *如果要重装Torque+maui的话,请停止服务及自启动,并删除以下文件:
|
pbs安装
最新推荐文章于 2024-02-17 19:00:00 发布