【深度学习】使用GPU服务器训练模型时的配置过程

最新推荐文章于 2024-05-31 14:28:48 发布

Mr.zwX

最新推荐文章于 2024-05-31 14:28:48 发布

阅读量3k

点赞数 6

分类专栏：【深度学习/神经网络】Deep Learning Linux及服务器文章标签：深度学习 python pytorch

本文链接：https://blog.csdn.net/qq_16763983/article/details/119980810

版权

86 篇文章 47 订阅

订阅专栏

22 篇文章 1 订阅

订阅专栏

使用ssh命令在windows或Linux系统进入到服务器环境（已配置好Anaconda的虚拟环境）
通过nvidia-smi查看GPU使用情况，通过nvidia-smi -L查看GPU型号，通过nvidia-smi -a查看GPU完整信息…

可以看到实际上两块GPU都是空闲状态，均能使用。
在python中查看cuda是否可用
在多GPU的情况下，使用指定的GPU进行训练
```
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
X, Y, A = X.to(device), Y.to(device), A.to(device)
model = model.to(device)
```
一定要强调的一点！！！要将模型和所有需要输入模型的tensor张量都扔进device！不能够只扔一部分！比如我没有将上面的A扔进device，那么A就是在cpu中运算的，会报错如下：

所以如果遇到这个问题，就仔细找找看自己是不是没有把所有的tensor都做一次tensor.to(device)操作。毕竟很多人刚开始写代码没有很准确地把把哪些是需要训练的tensor变量理清楚，那么你要GPU训练就一定要细心咯。

将编写好的代码和数据上传到服务器中
在本地使用scp命令即可实现：

scp [-P port] local_path username@ip:server_path
例如：
scp -P 1111 C:/Bob/main.py Bob@11.22.33.44:/home/Bob/