Pytorch模型存储心得小记

本文持续更新使用Pytorch存储模型的心得小记。

1. 推荐torch.save(model.state_dict(), ‘dir’)而不是torch.save(model, ‘dir’)

二者都可以用torch.load()重新加载,不同在于model是整个模型,model.state_dict()只含模型参数,我们常下载使用的预训练模型的checkpoint就是state_dict。

实际使用时,用torch.save(model, ‘dir’)方便,配合 model=torch.load('dir') 即可重新加载这个模型;而torch.save(model.state_dict(), ‘dir’)稍稍麻烦些,配合 import BertModelmodel=BertModel.from_pretrain("bert-base-uncased")model.load_state_dict('dir') 这3条语句才可重新加载模型。

既然torch.save(model, ‘dir’)使用起来更方便,为什么不推荐呢?原因在于:模型版本一旦发生变化,我们极可能无法重新加载存储好的model。以我的经历举例,从transformers 4.3.3升级为4.15.0,原先torch.save的model,都不能torch.load了,有error报错,比如‘BertEncoder’ object has no attribute ‘gradient_checkpointing’。此外,也建议用save_pretrained/from_pretrained。

2. model.state_dict()model.named_parameters()并不仅仅是数据类型不同

二者最直观的不同在于,state_dict是OrderdDict类型,配合state_dict()[参数名]就能取得参数值,named_parameters是generator类型,只能for循环或者.next()依次读取参数值。

二者的另一个不同在于,参数项可能不同。还是以我的经历举例,t5模型的named_parameters()的参数比state_dict()的参数少了两项: encoder.embed_tokens.weightdecoder.embed_tokens.weight。需要注意的是,新模型加载参数时会 随机初始化这两个缺少的参数项 ,模型效果会有所下降。所以存储模型参数时,要存储state_dict,而不是named_parameters。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SunnyGJing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值