深度学习测试的时候爆显存

最新推荐文章于 2023-08-07 17:36:42 发布

TS~~

最新推荐文章于 2023-08-07 17:36:42 发布

阅读量1.8k

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42305201/article/details/127000014

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

深度学习测试的时候爆显存

我在训练的时候好好的，测试的时候输入变大一些，但是batchsize只有1，竟然爆显存了。

原因：在测试的时候，没有加上with torch.no_grad()
因为当模型在测试数据时，每次运行测试的代码，依旧会计算梯度得到新的特征图，所以显存占用逐步增多。实际上在测试的过程中，只需要网络计算输出结果，不需要网络计算梯度

除此之外，为了进一步释放测试或者训练过程中的显存，可以在代码中加入torch.cuda.empty_cache()来释放掉显存中的中间变量，具体原理看Pytorch训练模型时如何释放GPU显存 torch.cuda.empty_cache()内存释放以及cuda的显存机制探索
例：

with torch.no_grad():
	output = net(input)
torch.cuda.empty_cache()

参考

【踩坑】深度学习 Torch 爆显存的原因（显存不够用等问题）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TS~~

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
深度学习测试的时候爆显存

深度学习测试的时候爆显存
复制链接

扫一扫

专栏目录

解决网络训练验证过程中显存增加的原因

ChandelerGause的博客

11-13

5811

最近在训练网络时发现网络训练了几个epoch之后就会出现OOM 一开始以为是内存不够，后来才发现是在网络训练过程中，显存会不断的增加。针对以上的问题，查找资料总结了三种有用的方式训练过程过程中，保存参数加.item() 原代码： def train_one_epoch( model, criterion, train_dataloader, optimizer, epoch, clip_max_norm ): model.train() device = next(model

TensorFlow深度学习设置显存占用率

half_lemon_c的博客

11-21

2168

在使用TensorFlow深度学习的时候，会默认占用最大显存，如何设置显存占用率，总结如下：I. 两种方法查看显存使用情况II. 设置TensorFlow显存占用率III. 代码插入位置IV. 使用对比V. 参考资料 I. 两种方法查看显存使用情况方法1：CMD窗口中输入命令nvidia-smi 方法2：使用软件AIDA64（推荐），实时监测电脑硬件使用情况电脑闲置可用显存为7443 MB。 II. 设置TensorFlow显存占用率 1. 按需动态分配显存（更灵活） config = t

1 条评论您还未登录，请先登录后发表或查看评论

Pytorch 训练与测试时爆显存(out of memory)的一个解决方案

热门推荐

xiaoxifei的专栏

11-23

6万+

Pytorch 训练时有时候会因为加载的东西过多而爆显存，有些时候这种情况还可以使用cuda的清理技术进行修整，当然如果模型实在太大，那也没办法。使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下： try: output = model(input) except RuntimeError as exception: if "out of...

【踩坑】深度学习 Torch 爆显存的原因（显存不够用等问题）

weixin_37879562的博客

11-04

2万+

简介在深度学习过程中，使用显卡的情况主要有两个过程：一、网络模型训练过程；二、网络模型测试过程。在这两个过程中，都可能存在爆显存或者爆内存的情况。在编程过程中，有很多同学应该都遇到这种情况，本文提供了针对这些问题的解决方案供大家参考。正常情况下无论是训练还是测试，显卡占用的显存资源不会大范围波动。情况1 训练过程中爆显存在训练过程中，如果出现显存不够用的情况，可以先分析具体什么情况。（1）如果瞬间爆掉显存，很大可能是因为显卡加载模型并载入训...

RuntimeError: CUDA out of memory. Tried to allocate 14.00 MiB linux跑深度学习爆显存问题

qq_43457119的博客

09-20

2834

Linux命令中的|符号称之为管道，作用是把前一个命令的输出作为下一个命令的输入（一般为stdout，stderr要做其他处理），管道的功能非常实用，在很多场景下都可以使用到，比如某个文件夹下有几万个文件，但是有一个文件是txt文件，其他均为图片，需要将此文件找出来。可以看到PID、PPID、CMD 3列重要信息，分别是进程ID、父进程ID、进程的启动命令。2、系统的进程太多，有可能跑之前调试的代码进程没有结束，还在占用显存，需要清理。就是我启动的进程，其他的均为系统进程或无关显存占用的进程。

深度学习笔记--解决GPU显存使用量不断增加的问题

牵一只蜗牛去散步

02-14

3741

出现上述问题的原因在于：输入数据到网络模型进行推理时，会默认构建计算图，便于后续反向传播进行梯度计算。而构建完整的计算图，会增加计算和累积内存消耗，从而导致 GPU显存使用量不断增加；基于 Pytorch 使用 VGG16 预训练模型进行分类预测时，出现 GPU 显存使用量不断增加，最终出现 cuda out of memory 的问题；由于博主只使用 VGG16 预训练模型进行分类预测，不需要训练和反向传播更新参数，所以不用构建完整的计算图。

Pytorch模型测试时显存一直上升导致爆显存

dong_liuqi的博客

07-30

1万+

问题描述首先说明: 由于我的测试集很大, 因此需要对测试集进行分批次推理. 在写代码的时候发现进行训练的时候大概显存只占用了2GB左右, 而且训练过程中显存占用量也基本上是不变的. 而在测试的时候, 发现显存在每个batch数据推理后逐渐增加, 直至最后导致爆显存, 程序fail. 这里放一下我测试的代码: y, y_ = torch.Tensor(), torch.Tensor() for batch in tqdm(loader): x, batch_y =

用GPU跑深度学习的时候显存溢出 RuntimeError: CUDA out of memory

hxhabcd123的博客

10-29

2834

本文记录跑深度学习时显存溢出的情况

解决Pytorch 训练与测试时爆显存(out of memory)的问题

09-18

在使用PyTorch进行深度学习模型的训练和测试过程中，可能会遇到“显存溢出”（Out of Memory，OOM）的问题。这个问题通常是由于GPU内存不足以存储所有计算所需的张量而导致的。以下是一些解决PyTorch训练与测试时...

深度学习双显卡配置_更新深度学习装备:双(1080Ti)显卡装机实录

weixin_39885683的博客

01-17

5109

前言之前一直在装有一张1080Ti的服务器上跑代码，但是当数据量超过10W(图像数据集)的时候，训练时就稍微有点吃力了。速度慢是一方面，关键显存存在瓶颈，导致每次训练的batch-size不敢调的过高(batch-size与训练结果存在一定的关系)，对训练结果的影响还是比较大的。在深度学习的时代，谁掌握算力谁便领先一步，因此有必要提升自己的计算能力。这是我目前使用的服务器的配置清单，主板理论可以插...

深度学习这么调参训练_深度学习调参技巧

weixin_39758712的博客

12-19

440

深度学习调参技巧训练技巧对深度学习来说是非常重要的，作为一门实验性质很强的科学，同样的网络结构使用不同的训练方法训练，结果可能会有很大的差异。1.参数初始化下面几种方式，随便选一个，结果基本都差不多。但是一定要做。否则可能会减慢收敛速度，影响收敛结果，甚至造成Nan等一系列问题。下面的n_in为网络的输入大小，n_out为网络的输出大小，n为n_in或(n_in+n_out)*0.5uniform...

深度学习所需显存_只需10分钟即可学习基本的Flexbox

cumian9828的博客

07-14

286

深度学习所需显存by Justin Yek 贾斯汀·耶克(Justin Yek) 只需10分钟即可学习基本的Flexbox (Learn basic Flexbox in just 10 minutes) 什么是Flexbox？ (What is Flexbox?) Flexbox, short for “flexible box,” is a layout mode introduced ...

深度学习显存占用不断提高（网上没有出现的一种情况）

qq_42061298的博客

05-23

1472

当我运行一段代码的时候出现一开始显存占用没有满，随着训练的step增多显存逐渐增大。我尝试了https://blog.csdn.net/qq_36401512/article/details/96163940所有方法发现都不行。直到收到一位高人指点，将原先的torch1.7版本换为torch1.6问题就解决了。 ...

解决测试阶段显存增大问题

weixin_45612763的博客

02-04

1845

转自简书：解决 pytorch 在训练时由于设置了验证集导致 out of memory (同样可用于测试时减少显存占用) 问题描述在跑pytorch的时候，在训练阶段监控到显存占用2.7G左右，但到了验证阶段发现占用了3.65G左右，对于我4G显存的显卡来说很容易爆掉。解决方法假设一开始训练和验证阶段如下： # 训练 for i, (train_data, train_label) in...

管理员解决深度学习服务器GPU内存占用问题

qq965194745的博客

02-26

2824

解决方法利用Linux自带的管道命令 nvidia-smi | grep python 获取到GPU中的进程号然后通过 ps -lA | grep pid 找到进程的状态若为S（sleep），并且超过容忍时间，则kill掉测试python执行centos7系统命令的情况 import os gpu_status = os.popen(&quot;nvidia-smi | grep python&quot;)...

解决神经网络训练过程中加载大文件造成的内存、显存爆炸的情况

pursuingparadise的博客

11-02

2566

最近在跑模型时因为用BERT预训练模型提取评论文本的动态词向量，对于6000个用户，每个用户12条评论，每条评论202个单词，768维的向量大约有40G，如果直接提取，无论是内存还是显存都吃不下，而且如果在模型中一条条提取的话，huggingface开发的transformers虽然可以做到，但预训练模型会在显存中占据2.2G的显存，我的显卡（1080ti 11G显存）在占据2.2G后可以跑的模型batch只有2，无疑会造成速度慢、泛化能力差等问题。我的解决思路是把600012202*768的向量存到不

GPU显存泄露/显存溢出/显存爆炸解决方案

dream6985的博客

08-07

3312

GPU显存泄露/显存溢出/显存爆炸解决方案

深度学习笔记：windows+tensorflow 指定GPU占用内存（解决gpu爆炸问题）

去向前方的博客

07-05

1万+

目录目录前言一、指定显卡二、限制GPU用量 1、设置使用GPU的百分比三、指定GPU并且限制GPU用量指定第一块GPU可用前言最近在使用深度学习，跑了一个大的model，然后GPU炸了，上网搜索了一下如何解决这个问题，做下笔记，分享给大家。 keras在使用GPU的时候有个特点，就是默认全部占满显存。这样如果有多个模型都需要使用GPU跑的话，那么限制是很大...

图片推理时爆显存

weixin_41423872的博客

10-07

783

语义分割任务，在别人的代码上用uavid数据集做实验训练的时候没有问题，但是在测试推理的时候batch_size为1居然会爆显存，只能推理一张图片，第二张就出错，排除了是第二张图片有问题的情况。试着在cpu上跑，可以运行。试着换成了cityscapes数据集，跑起来也没有问题，而且能跑很多张。查看训练代码，发现在训练的时候图像进行了缩放，变成了480*480的大小，所以确定是图片大小的问题。通过： # 双线性插值 img = img.resize((1920, 1080

深度学习运算时显存不够

最新发布

09-05

### 回答1：当深度学习运算时显存不够，可能会导致以下几种情况： 1. 程序无法正常运行：由于显存不够，程序可能会因为无法存储所有需要的变量和张量而无法正常运行，导致程序崩溃或者出现错误信息。 2. 运行缓慢：显存不够时，计算机可能会不得不频繁地将数据从内存中转移到硬盘或者其他存储设备中，这会导致计算速度变慢，从而影响程序的性能。 3. 计算结果不准确：如果显存不够，计算机可能会不得不将数据分成多个部分进行计算，这可能会导致计算结果不准确。解决这个问题的方法包括： 1. 减少模型大小：可以尝试减少模型大小，从而减少需要存储的数据量。 2. 减少批处理大小：可以尝试减少批处理大小，从而减少每次运算需要存储的数据量。 3. 使用更大的显存：可以考虑使用更大的显存设备，从而可以存储更多的数据。 ### 回答2： 深度学习是一种需要大量计算资源的任务，尤其是在训练模型时。显存是指显卡上的存储空间，用于存储模型的参数和中间计算结果。当深度学习模型的规模较大，参数量较多时，显存可能不足以存储所有数据，从而导致计算中断或无法进行。显存不足的主要原因有以下几个方面： 1. 模型规模过大：深度学习模型的规模通常由网络层数、每层的节点数等决定，当模型规模过大时，需要存储的参数也会增加，导致显存不够。 2. 数据集大小：深度学习模型通常需要将整个数据集加载到显存中进行训练，如果数据集过大，显存可能无法容纳。此时可以考虑使用小批量训练或者分批次加载数据。 3. 误差反向传播：深度学习中的误差反向传播算法需要在计算过程中保存每一层的中间输出结果，这也会占用显存。为了解决显存不足的问题，可以采取以下几种方法： 1. 降低模型规模：可以通过减少网络层数、节点数等方式来降低模型的参数量，从而减少显存的使用。 2. 使用更多的显存：可以通过购买显存更大的显卡或者增加多张显卡来扩展显存的大小。 3. 分批次加载数据：可以将数据集划分为小批量，每次只加载一部分数据进行训练，从而减少显存的压力。 4. 使用显存优化技术：比如使用显存共享、显存压缩等技术来提高显存的利用率。总之，深度学习计算过程中显存不足是一个常见的问题，可以通过优化模型、增加显存容量或采取更加高效的数据处理方式来解决。 ### 回答3： 深度学习在进行运算时，由于模型复杂、数据量大，会占用较多的显存。当显存不够时，可能会出现以下几种情况。首先，如果显存不足以存储整个模型及数据，通常会导致运算无法开始或无法完成，出现显存溢出的错误。这时可以考虑使用更大的显存容量的GPU，或者减小模型参数规模、减少输入数据的尺寸等方法来缓解问题。其次，即使显存能够存储模型及数据，但可能会出现显存不总是足够存储计算图中间结果的情况。这时可以尝试使用分批次计算的方法，将数据分成小块进行处理，每次只将需要的部分数据加载到显存中。或者使用一些技巧，如模型裁剪、参数共享等，降低计算复杂度，减少对显存的需求。另外，还可以通过减少显存的占用来回避显存不足的问题。例如使用低精度的浮点数表示，如FP16浮点数，可以减少显存使用量。在某些情况下，还可以考虑使用模型压缩的方法，如量化、剪枝等，减少模型的参数量，从而降低显存需求。总之，深度学习运算时显存不够是一个常见问题，可以通过增加显存容量、分批计算、模型裁剪等手段来解决。在实际应用中，需要根据具体情况和需求选择合适的解决方法，以获得较好的效果。