深度学习：记一次由model.train() 引发的模型训练效果变差事故

集电极

已于 2024-08-07 12:08:45 修改

阅读量34

点赞数 1

分类专栏： BUG 深度学习文章标签：深度学习人工智能

于 2024-08-07 12:07:52 首次发布

本文链接：https://blog.csdn.net/qq_38463737/article/details/140986429

版权

55 篇文章 0 订阅

订阅专栏

11 篇文章 7 订阅

订阅专栏

记一次由model.train() 引发的模型训练效果变差事故

在参考多份github代码复现深度学习模型时，完成后发现模型可以正常跑起来，但效果和模型原始论文效果差距有点大。

【❌】一开始以为是模型使用最新的torch函数导致的错误，然后将直接使用参考的模型代码，但结果还是有问题。
【❌】发现数据集使用的处理版本不一样，改为原始论文的数据集。但实验结果还是有问题。
【❌】发现计算acc方式不一致，切换后发现结果没有变化，还是有问题。
【✌️】排除以上因素后，只能是训练代码有问题了，经过一步步替换代码，原来是 model.train() 位置放错误了，应该放在epoch循环里面的。如果放在外面，因为每次epoch评估模型时都使用model.eval()，导致 model.train()只起一次作用。

错误

model.train()
for epoch in range(epochs):
	# xxx 模型运行和反向传播
	# 模型评估
	evaluate(model, data)
	
def evaluate(model, data):
	model.eval()
	# xxx 模型测试

正确

for epoch in range(epochs):
	model.train()
	# xxx 模型运行和反向传播
	# 模型评估
	evaluate(model, data)
	
def evaluate(model, data):
	model.eval()
	# xxx 模型测试

关注

专栏目录