pytoch使用nn.DataParallel导致Missing key(s) in state_dict错误

最新推荐文章于 2024-04-16 00:15:47 发布

文山湖的猫

最新推荐文章于 2024-04-16 00:15:47 发布

阅读量1.5k

点赞数 2

分类专栏：开发日志学习笔记深度学习文章标签：深度学习 python

本文链接：https://blog.csdn.net/single_dog/article/details/114413417

版权

开发日志同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

深度学习

3 篇文章 7 订阅

订阅专栏

学习笔记

2 篇文章 0 订阅

订阅专栏

1.nn.DataParallel

nn.DataParallel是pytorch使用多gpu训练时所使用的方法，但是使用nn.DataParallel之后，模型的读取就会有所不同。最常见的情况就是使用的预训练模型并不是在多张gpu上训练得来的，没有使用nn.DataParallel包装，但现在想要使用这个预训练模型就不能直接用下面的代码

model.load_state_dict(torch.load(save_path))

否则就会报以下错误

Missing key(s) in state_dict: "module.features.0.weight", "module.features.0.bias", ....
Unexpected key(s) in state_dict: "features.0.weight", "features.0.bias", ...

2.错误原因

使用nn.DataParallel包装后的模型参数的关键字会比没用nn.DataParallel包装的模型参数的关键字前面多一个“module.”，可以看看前面的错误，missing key 和 unexpected key的差别就在那个“module.”上。还有一种情况就是missing key 是module.features.0.weight，但unexpected key是 features.module.0.weight，就是module和feature的位置反过来了。

3.解决方法

（1）在使用nn.DataParallel之前就先读取模型，然后再使用nn.DataParallel，代码的顺序是

model.load_state_dict(torch.load(save_path))
model = nn.DataParallel(model, device_ids=[0, 1])

（2）如果想先用nn.DataParallel，再读取模型，要使用module.load_state_dict()命令读取，代码顺序是

model= nn.DataParallel(model, device_ids=[0, 1]) 
model.module.load_state_dict(torch.load(save_path))

（3）先使用nn.DataParallel的话，也可以手动为模型参数关键字添加“module.”或是将module和features的位置调换过来

model= nn.DataParallel(model, device_ids=[0, 1]) 

from collections import OrderedDict
new_state_dict = OrderedDict()
state_dict =savepath #预训练模型路径
for k, v in state_dict.items():
	# 手动添加“module.”
    if 'module' not in k:
        k = 'module.'+k
    else:
    # 调换module和features的位置
        k = k.replace('features.module.', 'module.features.')
    new_state_dict[k]=v

model.load_state_dict(new_state_dict)