最近在用并行超算云GPU服务器(中国国家网格12区)搭建毕设的环境,这里记录一下。
首先,超算云服务器的登录可以采用网页版、也可以采用客户端(超算云地址:https://cloud.paratera.com/ )。需要注意的是,并行超算云只提供windows和mac的客户端,Linux用户可能只有使用网页版的界面了(或者用pappcloud直接远程练ssh用vim写:( 哈哈,pappcloud的用法可参见官网下载的《papp_cloud使用手册》)。
超算云上最常见的是用module进行包管理(文档:https://modules.readthedocs.io/en/latest/module.html)。我们可以用module avail
命令来查看现有的包:
[macong@paratera01 ~]$ module avail
------------------------- /usr/share/Modules/modulefiles -------------------------
dot module-git module-info modules null use.own
-------------------------------- /etc/modulefiles --------------------------------
mpi/compat-openmpi16-x86_64 mpi/mpich-x86_64
mpi/mpich-3.0-x86_64 mpi/openmpi-x86_64
mpi/mpich-3.2-x86_64
----------------------------- /software/modulefiles ------------------------------
alphafold/2.0
anaconda/2.7
anaconda/3.7(default)
anaconda/3.7.4
bcftools/1.10.1
具体新建环境相关操作大家可以参见module的文档,此处不再赘述。大家需要注意的是,因为Pytorch和Tensorflow对应的CUDA版本有出入,我们建议Pytorch和Tensorflow分别装两个不同的环境。
然后根据下列不同的命令对Pytorch和Tensorflow进行装载。
1. Pytorch环境装载与测试
Pytorch 1.9.0 环境装载:
[macong@paratera01 project]$ module load anaconda/3.7.4(tensflow)
[macong@paratera01 project]$ source activate torch
(torch) [macong@paratera01 project]$
可