[Pytorch基础]GPU编译经验

最新推荐文章于 2024-06-29 19:16:36 发布

置顶 Cang_Wang

最新推荐文章于 2024-06-29 19:16:36 发布

阅读量632

点赞数

分类专栏： Pytorch基础

本文链接：https://blog.csdn.net/hongchengling2/article/details/108769902

版权

Pytorch基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这期分享的是一些GPU编译的初级经验

本地GPU配置

1.最好使用Linux或者Windows系统，mas系统需要外置N卡
2.需要安装Anaconda
3.需要安装N卡的Cuda配置（一定要安装，不要pycuda无法使用）
4.需要安装pycuda的pytorch
这些网上基本都有教程，请一定要使用以上的顺序。
第一次没经验，不按这个顺序出问题查问题纠错，弄了我两天

显存部分的说明

先查看你显卡的显存，低于8G显存的显卡基本跑起来都非常吃力，算力对于深度学习很重要。8G内存连VGG都跑不起来的。下图运行nvidia-smi的命令查看显存，显存只有3G，基本被占满，可以看到再运行，肯定是OOM的。
在这里插入图片描述

初始学习建议还是上Colab吧，查一下显存，有时会分配8G，有时会分配16G，全凭运气。
我就是想用公司显卡跑跑，发现跑个简单的VGG都老是OOM。
网上分析都是说降batch的大小就可以了，然而并不是这样的。
训练的时候显存分配是分两步的
1.模型建立的时候，例如Vgg模型建立的时候就立刻耗费了1.5个G的容量，这个和你模型的flops相关。
2.训练时候会去消耗显存，这时候batch越大消耗的显存越大，当然batch越大训练得越快，这个可以去看优化器的原理。
注意如果出现显存OOM，会一直占用着显存，这时候你调整参数运行也是无用的，需要重启ipynb运行。

运行时问题

1.数据准备，将model模型和图片以及lables参数都传输进入GPU训练

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model.to(device)

 for batch, (images,labels) in enumerate(train_data):
        images,labels = images.to(device),labels.to(device)

2.GPU溢出
CUDA error: device-side assert triggered
有两种可能性，一种是因为分类问题转化是从0开始，并不是从1，请一定要注意。
第二种是因为分类结果的数目（一定是一维张量）和labels类数没有对上

Cang_Wang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[Pytorch基础]GPU编译经验

这期分享的是一些GPU编译的初级经验本地GPU配置1.最好使用Linux或者Windows系统，mas系统需要外置N卡2.需要安装Anaconda3.需要安装N卡的Cuda配置（一定要安装，不要pycuda无法使用）4.需要安装pycuda的pytorch这些网上基本都有教程，请一定要使用以上的顺序。第一次没经验，不按这个顺序出问题查问题纠错，弄了我两天显存部分的说明先查看你显卡的显存，低于8G显存的显卡基本跑起来都非常吃力，算力对于深度学习很重要。8G内存连VGG都跑不起来的。下图运行n
复制链接

扫一扫

专栏目录