RuntimeError: Error(s) in loading state_dict for DistributedDataParallel: size mismatch for module

最新推荐文章于 2024-05-24 20:01:18 发布

Marmaladei

最新推荐文章于 2024-05-24 20:01:18 发布

阅读量1.6k

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Marmaladei/article/details/128773695

版权

今天在修改了网络，加了一些卷积层后，训练报错：

RuntimeError: Error(s) in loading state_dict for DistributedDataParallel:
        size mismatch for module.rpn.head.Merge_Attention.conv1.weight: copying a param with shape torch.Size([64, 3, 7, 7]) from checkpoint, the shape in current model is torch.Size([256, 256, 3, 3]).
        size mismatch for module.rpn.head.Merge_Attention.conv1.bias: copying a param with shape torch.Size([64]) from checkpoint, the shape in current model is torch.Size([256]).

搜索发现解决这种办法的通常都是在load_state_dict函数传参时令strict=False，但是这并不适用于我的问题。观察发现，模型所需的tensor维度和checkpoint的相差很多，显然就不是一个层的，因此怀疑是checkpoint和model在做各层映射对应的时候出了问题。
我这边直接用的是facebook的faskrcnn_benchmark里的align_and_update_state_dicts函数做层映射的，函数的说明大致意思是通过层名的后缀来做映射，所以如果有重名的层，就会导致映射错误！
而我新加的几层的命名，刚好有个是self.conv1，应该是和resnet101里的某层对应上了，导致出错！随便改了个名，直接跑通。

Marmaladei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RuntimeError: Error(s) in loading state_dict for DistributedDataParallel: size mismatch for module

观察发现，模型所需的tensor维度和checkpoint的相差很多，显然就不是一个层的，因此怀疑是checkpoint和model在做各层映射对应的时候出了问题。我这边直接用的是facebook的faskrcnn_benchmark里的align_and_update_state_dicts函数做层映射的，函数的说明大致意思是通过层名的后缀来做映射，所以如果有重名的层，就会导致映射错误！而我新加的几层的命名，刚好有个是self.conv1，应该是和resnet101里的某层对应上了，导致出错！
复制链接

扫一扫