预训练模型使用

最新推荐文章于 2024-04-23 18:04:40 发布

Double-E

最新推荐文章于 2024-04-23 18:04:40 发布

阅读量3.8k

点赞数 4

文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38257276/article/details/123619436

版权

预训练模型加载满足条件部分

预训练模型的使用往往可以涨点，因此是一个非常常见的操作，当我们在改模型或者加载模型的某些层的参数时，并不能像常规那样直接加载进来，因此做一个记录。
这里我是用YOLOX做实验

# model = xxx(模型的初始化)
model = exp.get_model()

加载模型权重：

ckpt = torch.load('xxx/xxx.pt', map_location="cpu")

打印一下保存的pt是啥东西，因为YOLOX保存的pt包含model、ema等等，因此只看我们需要的’model’就OK：

for k,v in ckpt['model'].items():
    print(k, 'size is', v.size())

在这里插入图片描述

太长只截图部分，可以看到每个op对应一个key和value,感兴趣的可以打印一下value。到此就可以知道预训练权重中有哪些层的参数。接下来在看看修改后的网络有那些层，

model_dict = model.state_dict()  # 注意和load_state_dict()的区别，就里就是按照定义随机初始化
        for k,v in model_dict.items():
            print(k, '------>', v.size())

在这里插入图片描述
因为预测头没做修改，所以是前后是一致的，实际上load_state_dict()就是把pt的东西根据key赋值到网络中,实现加载数据。

假设在YOLOX中加了一层SE-Attention，那么并不是所有的key都对应的上，因此需要筛选：

ckpt_dict = {k: v for k, v in ckpt['model'].items() if k in model_dict}

更新修改后的网络权重：

model_dict.update(ckpt_dict)  #相当于把预训练有的网络层的参数更新进来

然后再全部加载进加了Attention的网络：

model.load_state_dict(model_dict)

到这里就把预训练权重里面跟修改后的网络的对应部分全部实现了赋值
啰嗦一点，也可以这样获取key和value

for name ,param in model.named_parameters():
    print(name)
    print(param)

加载主干网络的参数进来，并在训练中不更新

根据前面打印的层的key，可以找到骨干网络的最后一层的信息，这里假设是第150个参数：
在这里插入图片描述

for i, param in enumerate(model.parameters()):
    print(i,'-------->',param.size())
    if i<150:
        param.requires_grad = False

这样训练过程中就不更新主干网络的参数

还有因为类别个数不一样在最后一层需要修改某一层的，以后再做了…

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
预训练模型使用

预训练模型加载满足条件部分预训练模型的使用往往可以涨点，因此是一个非常常见的操作，当我们在改模型或者加载模型的某些层的参数时，并不能像常规那样直接加载进来，因此做一个记录。这里我是用YOLOX做实验# model = xxx(模型的初始化)model = exp.get_model()加载模型权重：ckpt = torch.load('xxx/xxx.pt', map_location="cpu")打印一下保存的pt是啥东西，因为YOLOX保存的pt包含model、ema等等，因此只看我们
复制链接

扫一扫

Double-E CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

106万+: 周排名

162万+: 总排名

1万+: 访问

: 等级

154: 积分

5: 粉丝

20: 获赞

6: 评论

60: 收藏

私信

关注

热门文章

最新评论

dense_flow复现
ONESHOT-: 如何将flow_x和flow_y合并成一张光流图呢
Screen简单使用
CSDN-Ada助手: 恭喜您写了第10篇博客！标题为“Screen简单使用”，非常引人注目。您的持续创作令人钦佩，这一系列的博客对于屏幕的简单使用一定会帮助到许多读者。在下一步的创作中，或许您可以考虑进一步探索Screen的高级功能或者与其他相关工具的结合使用。您的经验与见解对于我们这些想要更深入了解Screen的读者来说将是非常宝贵的。期待您的下一篇博客，谦虚地期待着能从中获得更多的知识和启发！
自动驾驶统一框架UniAD
CSDN-Ada助手: 恭喜您写了一篇关于自动驾驶统一框架UniAD的博客，对这一领域的研究和探索做出了贡献。在您的文章中，我看到了对技术的深入理解和对未来的展望，这让我非常受益。作为下一步的创作建议，我认为您可以结合实践经验，分享一些UniAD在实际场景中的应用案例，这将更加有助于读者理解和应用该框架。再次感谢您的分享，期待您更多的优秀作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
预训练模型使用
Double-E: 那就按照常规那样直接把权重加载就行
预训练模型使用
像啦啦啦同志学习: 如果想使用预训练的参数，不冻结任何层重头训练，怎么写代码呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。