pytorch学习007- -预训练中的权重加载(完全导入,部分导入)

更新

2022.04.12更新
导入权重的用法相当普遍,但是可以导入吗?导入有什么影响?
首先一定是可以导入的,但是导入之后是否有效果?那应该分以下情况讨论。

  • 网络模型完全对应:这种情况可以导入,而且微调效果更好
  • 网络模型不完全对应(小心这种情况)
    • 只是输出层有部分变化,可以导入
    • 中间层有变化,不建议导入

问题

  1. 预训练后的权重如何导入另一个网络模型?
  2. 预训练对应的网络模型A与未训练的网络模型结构B不对应?
    2.1 两个网络模型A和B只有部分对应
    2.2 集合关系上A属于B
    2.3 集合关系上B属于A

方案

PyTorch文档

  • torch.nn.modules.module.Module def load_state_dict(self,
    state_dict: Dict[str, Tensor] | OrderedDict[str, Tensor],
    strict: bool = …) -> None
  • 说明:将 state_dict 中的参数和缓冲区复制到此模块及其后代中。
    • 如果 strict 为 True,则 state_dict 的键必须与此模块的torch.nn.Module.state_dict 函数返回的键完全匹配
  • 参数
    state_dict – 包含参数和持久缓冲区的字典。
    strict – 是否严格强制:
    • attr:state_dict 中的键与该模块的 :meth:~torch.nn.Module.state_dict 函数返回的键匹配。 默认值:“真”
  • 返回值:
    • missing_keys 是包含缺失键的 str 列表
    • unexpected_keys 是包含意外键的 str 列表

模型对应,完全导入

# demo1 完全加载权重
model = NET1()
state_dict = model.state_dict()
weights = torch.load(weights_path)['model_state_dict'] #读取预训练模型权重
model.load_state_dict(weights)

模型不完全对应

此一种情况经常出现在要修改预训练网络模型中某些层时,可能增加若干层,可能减少若干层,或上述两种情况皆有。

只有部分对应

在这里插入图片描述
两个模型中有部分是对应的,此种情况建议使用PyTorch中的load_state_dict所提供的参数:strict
将strict设置为False,可以在两个模型不同的情况下,仅加载相同键值部分。(保证各层的名字相同)

# demo2
model = NET2()
state_dict = model.state_dict()
weights = torch.load(weights_path)['model_state_dict']	#读取预训练模型权重
model.load_state_dict(weights, strict=False)	#strict

A属于B

在这里插入图片描述
此种情况常见于,在网上download别人的预训练模型后,需要根据自己的任务,添加若干个层,而其他层保持不变。

# demo3
*****待测试

B属于A

在这里插入图片描述
此种情况常见于从网上download别人的预训练模型后,因为某些限制,需要对模型进行精简,只删除若干个层,其他层保持不变。

# demo4
*****待测试
  • 17
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
### 回答1: PyTorch使用预训练权重的方法通常包括以下几个步骤: 1. 选择需要使用的预训练模型PyTorch官方提供了许多流行的预训练模型,如ResNet、VGG、Inception等,可以在torchvision.models找到。 2. 加载预训练权重。可以使用torchvision.models预训练模型的load_state_dict()方法来加载预训练权重,或者直接使用torch.load()方法加载已经保存好的预训练权重。 3. 将模型适配到自己的任务上。根据自己的任务需要,可以修改预训练模型的最后一层或几层,或者在预训练模型之上添加新的层。 4. 训练模型。使用加载预训练权重模型进行训练,通常需要在训练过程冻结预训练模型部分层参数,只对需要修改的层进行训练。 以上是使用预训练权重的一般流程,具体实现可以参考PyTorch官方文档的示例代码。 ### 回答2: PyTorch是一种流行的深度学习框架,使我们能够方便地使用预训练权重进行模型初始化,进而提升模型的性能和加快训练速度。 预训练权重是在大规模数据集上训练好的模型参数。使用预训练权重的好处是,它们包含了在大量数据上学习到的有用特征,可以作为模型初始化的一种方式。 在PyTorch,我们可以通过下载预训练权重来使用它们。例如,torchvision包提供了从ImageNet数据集预训练的许多常用模型,如ResNet、VGG、AlexNet等。通过使用这些预训练权重,我们可以获得在图像识别任务上具有很高准确性的模型。 使用预训练权重的步骤如下: 1. 首先,导入PyTorch和所需的预训练权重模型。 2. 创建模型实例,并加载预训练权重。 3. 将模型设置为评估模式,即不进行梯度计算。 4. 输入新的数据进行预测。 在加载预训练权重时,我们可以选择冻结一部分或全部权重。冻结权重意味着它们在训练过程将保持不变,只有其他参数会更新。这对于微调模型非常有用,即在新数据集上进行训练,以适应特定任务。 当我们使用预训练权重时,模型通常能够更快收敛,并且在训练集上获得更好的初始性能。然而,对于特定任务,预训练权重可能不一定是最佳选择。在某些情况下,我们可能需要进行微调或自定义的权重。 使用PyTorch预训练权重,我们能够方便地利用先前在大规模数据集上训练的模型参数,从而加速模型训练并提高模型性能。 ### 回答3: PyTorch是一个流行的深度学习框架,可以使用预训练模型权重来帮助我们快速建立和训练模型预训练权重是在大规模数据集上预训练模型参数,可以作为初始参数或微调参数用于特定任务。 使用预训练权重的第一步是选择适合任务的模型架构。PyTorch提供了一系列常用的预训练模型,如ResNet、VGG、AlexNet等。你可以根据任务的需求选择合适的模型。 下载预训练权重是接下来的一步。PyTorch通过torchvision提供了一种简便的方式来下载和加载预训练权重。你可以使用torchvision.models模块的函数,如resnet50(pretrained=True)来下载ResNet-50的预训练权重加载预训练权重后,你可以将其应用于你的任务。如果你希望在预训练权重的基础上微调模型,则需要冻结一些层,只更新部分参数。通过设置requires_grad为False,可以冻结权重,使其不参与梯度更新。 一旦你完成了模型的设置和参数初始化,就可以开始训练了。你可以使用预训练权重作为模型的初始参数,让模型更快地收敛和获得更好的性能。 需要注意的是,预训练权重通常是在大规模数据集上训练得到的,因此可能适用于许多相关任务。然而,如果你的任务与预训练模型的训练数据具有很大的差异,可能需要进行微调或重新训练以适应你的任务。 总而言之,PyTorch提供了便捷的方式来使用预训练权重,通过应用预训练权重,我们可以更快地构建和训练模型,并获得更好的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值