【Pytorch踩坑记录】深度学习程序在训练第x个Epoch的过程中直接被退出终端

最新推荐文章于 2024-03-18 10:16:56 发布

Iron_lyk

最新推荐文章于 2024-03-18 10:16:56 发布

阅读量4.6k

点赞数 4

分类专栏： python Pytorch笔记本文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/DUDUDUTU/article/details/127677679

版权

python 同时被 2 个专栏收录

6 篇文章

订阅专栏

Pytorch笔记本

5 篇文章

订阅专栏

【问题描述】：我在一个大的数据集上训练模型时，终端或vscode界面老是在程序在跑第3个epoch的过程中自动被卡退，注意不是程序报错，而是直接将vscode退出，连错误都不报这就是头疼之处，并不知道问题出现在哪里。

【原因分析】：先说答案： 由于程序占用内存越来越大，在占满之后（第3个epoch过程中）使得linux系统直接kill任务，退出vscode界面。分析： 我在训练时使用的数据集比较大（约6万个样本），Batchsize设置为4，也就是在每个epoch中需执行15000次循环，因此我需要在每次循环中记录一些值，所以就用的是以下代码(简要描述代码)来实现。但是由于写的不规范，导致程序在执行循环的过程中没有及时释放内存，所以随着epoch的增加，模型占用的内存是越来越大的，最后导致沾满linux内存，导致系统杀死进程。

total_pose = torch.tensor([])
for i (input, gt) in enumerate(tqdm(train_loader)):
	optimizer.zero.grad()
	output = model(input)
	loss = cr(output, gt)
	loss.backward()
	optimizer.step()
	
	# 我想记录下每个批次产生的pose，get_pose()这个函数里会产生一些中间变量
	pose = get_pose(output)
	# 问题就出在下面这个代码中，使用torch.cat和直接保存张量会使得内存越来越大，不能及时释放
	total_pose = torch.cat((total_pose, pose), dim=0)

【解决方案】：在最开始我怀疑是某些代码写错了，所以导致报错，但是这样也只是会让程序报错，并不会直接退出界面，在花了大量时间之后，终于在一篇博客中找到灵感，问题就在于（其他类似问题出现时可能也因为如此）：Linux程序进程被杀，日志突然中止，可以考虑是否因为程序占用内存过高，导致系统内存不足，为避免系统崩溃，系统寻找内存占用最大的进程kill掉。检查代码后，修改如下。

# 原代码
# total_pose = torch.tensor([])
# 修改如下
total_pose = []
for i (input, gt) in enumerate(tqdm(train_loader)):
	optimizer.zero.grad()
	output = model(input)
	loss = cr(output, gt)
	loss.backward()
	optimizer.step()
	

	# 原代码
	# pose = get_pose(output)	
	# total_pose = torch.cat((total_pose, pose), dim=0)	
	# 修改如下
	pose = get_pose(output.data.cpu().numpy())	
	total_pose.appen(pose)