多GPU训练，加载模型时报错不匹配

最新推荐文章于 2024-07-01 17:26:37 发布

blue_sky_wait_me

最新推荐文章于 2024-07-01 17:26:37 发布

阅读量888

点赞数 1

分类专栏：计算机视觉文章标签：深度学习

本文链接：https://blog.csdn.net/bule_sky_wait_me/article/details/119315858

版权

计算机视觉专栏收录该内容

38 篇文章 4 订阅

订阅专栏

一、问题描述

多个GPU 训练，保存时没有加module , 导致加载模型时报错。正确写法应该如下：

       # save model
        if num_gpu ==  1:
            torch.save(model.state_dict(), os.path.join(opt.outf, 'model.pth'))
        else:
            torch.save(model.module.state_dict(), os.path.join(opt.outf, 'model.pth'))

就是在多卡训练的时候，存储模型权重的时候，用的是：

torch.save(model.module.state_dict(), os.path.join(opt.outf, 'model.pth'))

二、解决方法

load 模型时，删除多余的module，那个地方缺了“module”关键字，导致在保存模型参数时，参数保存成了这样（模型参数是以key-value的形式保存的）,即stat_dict（key），对应的value每个值都多了一个‘module’，直接加载，会报错不匹配。可以将状态字典里的"module"关键字去掉，这样就可以了。

参考：https://www.likecs.com/show-99262.html

blue_sky_wait_me

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
多GPU训练，加载模型时报错不匹配

一、问题描述多个GPU训练，保存时没有加module ,导致加载模型时报错。正确写法应该如下： # save model if num_gpu == 1: torch.save(model.state_dict(), os.path.join(opt.outf, 'model.pth')) else: torch.save(model.module.state_dict(), os.path.joi...
复制链接

扫一扫

专栏目录