一、整个集群情况
集群架设以后基本上能满足自己的高性能计算的实验需要,充分发挥了服务器的CPU和GPU的性能,本集群都是基于开源的软件架设,能够尽可能的拓展,主要的rocks系统时目前很多美国大学实验室和科研机构青睐的系统。rocks集成了很多开源的优秀软件,比如:ganglia,hpc等。
二、CPU-GPU服务器集群架设硬件准备
至少两台服务器(最好有三台)
一台交换机
一台防火墙
三、整个服务器集群框架
四、整个服务器软件框架
在软件层面上,集群三个server划分为对应rockscluster中三个命名。server1作为HeadNode(头结点),server2为compute-0-0,server3为compute-0-1。以下是每个节点上安装的相关软件环境截图。
2、注意几个问题
(1)rocks系统安装过程中注意IP的设置。要有内网的IP预留。
(2)rocks安装过程中网关设置默认是8.8.8.8。
(3)rocks安装过程中预装选项不要选xen,xen是一个虚拟机检测器,CUDA环境安装时NIVIDA不支持xen。
(4)安装过程中特别注意分区,特别注意/export分区和root分区至少有16G。
五、CUDA软件环境安装
cuda下载后包括driver,开发环境toolkit,例子cuda_simple
2、注意问题
(1)版本信息要注意,要和RedHat版本一致(因为rocks系统时centos内核,centos是RedHat的社区版)
不懂可以详细咨询博主,邮箱:781578278@qq.com