在训练过程中跑验证集导致显存out of memory问题。

最新推荐文章于 2024-04-22 02:40:28 发布

等待戈多。

最新推荐文章于 2024-04-22 02:40:28 发布

阅读量3.8k

点赞数 5

分类专栏： # Pytorch专栏深度学习我的教程文章标签： pytorch 深度学习机器学习

本文链接：https://blog.csdn.net/qq_44554428/article/details/124546598

版权

我的教程同时被 3 个专栏收录

29 篇文章

订阅专栏

Pytorch专栏

14 篇文章

订阅专栏

深度学习

14 篇文章

订阅专栏

本文介绍了在使用PyTorch训练模型时遇到的显存溢出问题。作者发现，在每个epoch训练结束后进行验证时，由于计算梯度导致显存加倍并引发错误。解决方案是在验证阶段使用`torch.no_grad()`上下文管理器，这样可以防止计算梯度，从而避免显存溢出。修改后的训练流程有效地解决了这一问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在训练模型时，笔者想要每训练一个epoch，记录一下val的准确率，但是每当训练完第一个epoch开始准备跑val数据集的时候，就会出现显存double然后溢出的情况（batch_size在验证和训练时设置相同）。此处将复现笔者出现的问题，并给出解决方案。

正文

原始训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	val(model,test_dataloader)
	#会在执行val的时候显存double,然后out of memory。

改进后训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	with torch.no_grad():
		val(model,test_dataloader)