由于项目代码要求pytorch2.0版本,而pytorch2.0版本需要cuda11.8,高于我之前的11.0的cuda版本。
因此考虑使用conda新建一个虚拟环境,在里面使用高版本的cuda和pytorch。
0. 背景分析
我使用的是lunix多人集群服务器。集群服务器需要用作业调度系统,也就是bsub命令之后才能提交作业,运行任务。在这种多人服务器下,如果想要查看原本的cuda版本,在命令行中直接输入nvidia-smi是无效的,会报错nvidia-smi:command not found。这种情况下如何查看cuda版本呢?可以看我之前的这篇文章 【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息
看右上角,GPU的cuda版本为11.0,低于pytorch2.0需要的cuda11.8,因此考虑新安装一个高版本的cuda。(此前我也有疑惑,11.0是不是这块GPU支持的最高版本,但好像不是,可以自行下载更高版本的)

1. 新建conda虚拟环境
为了不影响其他版本的cuda,先新建虚拟环境。这里安装的是python3.10版本
conda create -n env_name python==3.10
其中env_name是虚拟环境的名字,安装过程中输入y,随后用conda activate env_name命令进入虚拟环境。
2. CUDA11.8安装
网上的教程有很多,也很复杂。但我突然发现

文章讲述了作者在Linux多人集群服务器上升级CUDA版本至11.8,并创建conda虚拟环境,以安装和验证PyTorch2.0的过程,包括conda环境的创建、CUDA的安装以及torch的下载和安装方法。
最低0.47元/天 解锁文章
2863





