部署HPC集群的实施方案
济南友泉软件有限公司
一、系统配置
1.1 网络拓扑
1.2 操作系统
登录节点:CentOS Linux release 7.3.1611
管理节点:CentOS Linux release 7.3.1611
计算节点:CentOS Linux release 7.9.2009,
二、计算节点、登录节点配置
2.1 域名设置
在登录节点、所有计算节点上执行以下命令,完成节点域名配置
vi /etc/hostname
vi /etc/hosts
2.2 免密登录
以loginserver-chaosuan为例,在登录节点、所有计算节点上执行以下命令,设置免密登录
a) 生成公钥私钥
ssh-keygen -t rsa
b) 拷贝公钥到其他节点
ssh-copy-id compute11
ssh-copy-id compute12
ssh-copy-id compute13
ssh-copy-id compute14
2.3 关闭防火墙
在登录节点、计算节点执行以下操作,
a) 查看防火墙状态
systemctl status firewalld.service
b) 关闭运行的防火墙
systemctl stop firewalld.service
c) 开机关闭防火墙
systemctl disable firewalld.service
d) 修改selinux
vi /etc/selinux/config
将SELINUX=enforcing改为:SELINUX=disabled,并执行setenforce 0使他立即生效,当然你也可以重启机器
三、建立NFS服务
使用compute11作为NFS服务器,loginserver-chaosuan 、compute12、compute13、compute14等作为NFS客户端。
3.1 NFS服务器
a) 安装RPC和NFS软件包
yum -y install rpcbind nfs-utils
b) 启动服务和设置开启启动
systemctl start rpcbind #先启动rpc服务
systemctl enable rpcbind #设置开机启动
systemctl start nfs-server nfs-secure-server #启动nfs服务和nfs安全传输服务
systemctl enable nfs-server nfs-secure-server
firewall-cmd --permanent --add-service=nfs #配置防火墙放行nfs服务
firewall-cmd --reload
c) 配置共享文件目录,编辑配置文件
chmod go+w /home #开通自己组group和其他人other的写权限
vi /etc/exports
/home 172.17.22.16(rw,async,no_root_squash)
/home 192.168.1.0/24(rw,async,no_root_squash)
systemctl reload nfs #重新加载NFS服务,使配置文件生效
3.2 NFS客户端(计算节点)
a) 安装RPC和NFS软件包
yum -y install rpcbind nfs-utils
b) 查看服务器抛出的共享目录信息
showmount -e 192.168.1.11
c) 在客户端创建目录,并挂载共享目录
vi /etc/fstab #在该文件中挂载,使系统每次启动时都能自动挂载
192.168.1.11:/home /home nfs defaults 0 0
mount -a #是文件/etc/fstab生效
d) 检查
df -Th
3.3 NFS客户端(登录节点)
a) 安装RPC和NFS软件包
yum -y install rpcbind nfs-utils
b) 查看服务器抛出的共享目录信息
showmount -e 172.17.29.11
c) 在客户端创建目录,并挂载共享目录
vim /etc/fstab #在该文件中挂载,使系统每次启动时都能自动挂载
172.17.29.11:/home /home nfs defaults 0 0
mount -a #是文件/etc/fstab生效
d) 检查
df -Th
四、建立NIS服务
使用compute11作为NFS服务器,loginserver-chaosuan 、compute12、compute13、compute14等作为NFS客户端。
4.1 NIS服务器
a) 安装软件包
yum install yp-tools ypbind
b) 设置开机域名
vi /etc/sysconfig/network
NISDOMAIN=hpc
c) 指定NIS查询的主机名称
vi /etc/yp.conf
ypserver compute11
d) 启动NIS
systemctl enable ypbind.service
systemctl restart ypbind.service
systemctl status ypbind.service
e) 验证
ypwhich
ypcat passwd
f) 使用NIS数据库设置服务搜索顺序
vi /etc/nsswitch.conf,将相关行改成以下值
passwd:files nis
shadow:files nis
group:files nis
hosts:files nis dns
g) 重启NIS
systemctl restart ypbind.service
4.2 NIS客户端(计算节点)
a) 安装软件包
yum install yp-tools ypbind
b) 设置开机域名
vi /etc/sysconfig/network
NISDOMAIN=hpc
c) 指定NIS查询的主机名称
vi /etc/yp.conf
ypserver compute11
d) 启动NIS
systemctl enable ypbind.service
systemctl restart ypbind.service
systemctl status ypbind.service
e) 验证
ypwhich
ypcat passwd
f) 使用NIS数据库设置服务搜索顺序
vi /etc/nsswitch.conf,将相关行改成以下值
passwd:files nis
shadow:files nis
group:files nis
hosts:files nis dns
g) 重启NIS
systemctl restart ypbind.service
4.3 NIS客户端(登录节点)
操作过程同上。
五、编译器配置
5.1 安装编译器
安装Intel Parallel Studio XE 2019 Cluster Edition编译器,解压之后直接运行./install.sh即可。
5.2 配置环境变量
在登录节点、所有计算节点上修改~/.bash_profile文件,
vi ~/.bash_profile
5.3 编写节点列表文件
5.4 运行Intel MPI测试程序
mpirun -np 20 -f /home/hycom/machinefile ./hello-mpi
六、作业调度系统
LSF、TORQUE等作业调度系统,具体视情况而定。