总结一下花费三天在服务器上搭建的服务器:
1、先在本地下载linux版anaconda,然后使用xftp传到服务器,然后解压即可。
2、安装CUDA,https://blog.csdn.net/scl52tg/article/details/126299974,https://blog.csdn.net/weixin_45690176/article/details/119062059,不需要使用root权限(不需要sudo).
CUDA下载网址如下,注意选择runfile文件,我这里的服务器没有root权限,且yum无法正常使用,指令安装时去掉sudo,使用sh即可。
https://developer.nvidia.com/cuda-toolkit-archive
在bash安装cuda时无法修改路径,可以用以下格式指令安装
bash ./cuda_10.1.243_418.87.00_linux.run --toolkit --toolkitpath=/home/data/yangwg/qh/cuda_10.1 --defaultroot=/home/data/yangwg/qh/cuda_10.1
2.5、中途出现的空间不够但实际上空间充足([Errno 28] No space left on device),可以创建一个tmp文件夹替换系统tmp文件夹,更改tmp路径(tmp为创建的文件夹),原因是系统临时内存不足:
export TMPDIR=/data/liuyichen/tmp
3、安装cudnn,链接同上
检查cudnn是否安装成功
https://blog.csdn.net/tangjiahao10/article/details/125227005
4、去torch官网安装合适版本的torch,记得拉到最后选择准确的CUDA版本(以下错误示例,注意到-f后跟的链接里是cu113,可能是这个原因导致我下载cu111没成功)
# CUDA 11.1
pip install torch==1.10.1+cu111 torchvision==0.11.2+cu111 torchaudio==0.10.1 -f https://download.pytorch.org/whl/cu113/torch_stable.html
5、常用清华源
-i https://pypi.tuna.tsinghua.edu.cn/simple
6、查看服务器支持的CUDA版本以及查看CUDA是否安装成功
nvidia -smi
nvcc -V
7、查询torch是否可用
import torch
print(torch.cuda.is_available())
torch.cuda.get_device_name(0)