Pytorch中只导入部分层权重的方法

我们通常会用到迁移学习,即在一个比较通用的pretext-task上做预训练,随后针对不同的downstream task进行微调。而在微调的时候,网络结构的最后几层通常是要做出改变的。举个例子,假设pretext-task是在imagenet上面做图像分类,而下游任务是做语义分割,那么在微调的时候需要将分类网络的最后几层全连接层去掉,改造成FCN的网络结构。此时就需要我们把前面层的权重加载进去。

如果改了模型结构以后,再简单粗暴的使用torch.load_state_dict(torch.load(‘xxx.pth’))那么肯定就会报错。所以具体怎么办呢,且耐心往下看。

首先我们定义一个简单的图像分类模型:

class model1(nn.Module):
    def __init__(self, img_size):
        super(model, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 3, 1, 1)
        self.conv2 = nn.Conv2d(16, 64, 3, 1, 1)
        self.fc1 = nn.Linear(self.num_feature_pixel(img_size), 1024)
        self.fc2 = nn.Linear(1024, 10)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2,2))
        x = F.max_pool2d(F.relu(self.conv2(x)), (2,2))

        x = torch.flatten(x)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))

    def num_feature_pixel(self, img_size):
        res = 1
        for i in img_size[2:]:
            res *= i
        res = int(res * 64 / (4**2))
        return res

此时对该模型进行测试,并且将模型参数保存为"pretext.pth":

img = torch.rand([1, 3, 224, 224])
img_size = img.shape
net = model1(img_size)
res = net(img)
torch.save(net.state_dict(), 'pretext.pth')

此时如果将最后的全连接层都拿掉,再新添加一个conv3,那么网络的结构定义如下:

class model2(nn.Module):
    def __init__(self):
        super(model, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 3, 1, 1)
        self.conv2 = nn.Conv2d(16, 64, 3, 1, 1)
        self.conv3 = nn.Conv2d(64, 64, 3, 1, 1)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2,2))
        x = F.max_pool2d(F.relu(self.conv2(x)), (2,2))
        x = F.max_pool2d(F.relu(self.conv3(x)), (2,2))
        return x

此时如果执行下面的代码,即在新模型的对象中去load之前的"pretext.pth"的参数,就会出现报错:

net = model2()
net = net.load_state_dict(torch.load('pretext.pth'))

"""
RuntimeError: Error(s) in loading state_dict for model:
	Missing key(s) in state_dict: "conv3.weight", "conv3.bias". 
	Unexpected key(s) in state_dict: "fc1.weight", "fc1.bias", "fc2.weight", "fc2.bias".
"""

很显然,在原来模型的参数"pretext.pth"中,并不存在新模型的conv3参数;与此同时,fc1和fc2的相关参数,对于新模型来说也是unexpected的。因此问题就出现在这里:原模型参数的键,不能完全和修改后的模型的key进行匹配。因此要解决这个问题,就是要抽取出"pretext.pth"中存在于新模型中的键值对

所以下述代码可以完美解决问题:

net = model2()
pretext_model = torch.load('pretext.pth')
model2_dict = net.state_dict()
state_dict = {k:v for k,v in pretext_model.items() if k in model2_dict.keys()}
model2_dict.update(state_dict)
net.load_state_dict(model2_dict)

首先pretext_model是以字典的形式读取出之前模型的参数,model2_dict表示新模型的参数字典,state_dict表示两个模型共有的参数键值对。在得到state_dict以后,model2_dict对共有的key进行更新,即把原模型能读的参数都读进来,最后net加载进这个更新后的参数字典。

  • 55
    点赞
  • 123
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: 要冻结ResNet50模型部分,可以通过以下步骤实现: 1. 加载ResNet50模型 ```python import torch import torchvision.models as models resnet50 = models.resnet50(pretrained=True) ``` 2. 冻结部分 例如,我们想要冻结ResNet50的前四个卷积块(即前面的16个卷积),则可以通过以下代码实现: ```python for param in resnet50.parameters(): param.requires_grad = False for param in resnet50.layer4.parameters(): param.requires_grad = True ``` 在这个例子,我们首先将所有参数的 `requires_grad` 属性设置为 `False`,这样它们就不会被更新。然后,我们将第四个卷积块的参数的 `requires_grad` 属性设置为 `True`,这样它们就可以被更新。 3. 测试模型 ```python # 前向传播 x = torch.randn(1, 3, 224, 224) output = resnet50(x) # 输出 print(output.shape) ``` 经过上述步骤后,我们可以测试模型是否能够正常运行。请注意,由于我们冻结了前面的,因此模型的输出形状应该与完整的ResNet50模型的输出形状不同。 ### 回答2: 在使用PyTorch的ResNet50模型时,我们可以通过冻结部分来提高模型的训练效果和速度。冻结是指将特定的的参数设置为不可训练,即固定参数不再更新。这样做的目的是让模型专注于学习数据的高级特征,而不需要重复训练低级特征的提取过程。 对于ResNet50模型,我们可以选择冻结卷积。卷积通常用于提取图像的低级特征,例如边缘和纹理等。这些特征通常是通用的,不会因为不同的任务而变化。因此,我们可以选择性地冻结卷积,让模型在训练过程不再更新这些的参数。 在PyTorch,要冻结部分很简单。我们首先加载ResNet50模型,并将其所有参数设置为不可训练: ```python import torch import torchvision.models as models model = models.resnet50(pretrained=True) for param in model.parameters(): param.requires_grad = False ``` 接下来,我们可以选择性地解冻某些,以便在训练过程更新它们的参数。例如,如果我们想要让模型仅更新最后一的参数,我们可以这样做: ```python for param in model.fc.parameters(): param.requires_grad = True ``` 这将冻结所有卷积的参数,只允许最后一的参数进行反向传播和更新。 最后,我们需要将模型移动到适当的设备(如GPU),并开始训练过程。 冻结部分可以有效地加快模型训练速度,并帮助模型获得更好的学习结果。但值得注意的是,根据具体任务的复杂程度和数据集的大小,需要根据实际情况选择要冻结的级。 ### 回答3: PyTorch的ResNet50模型是一个非常强大的深度学习模型,由于其结构的复杂性,在某些情况下我们可能希望只训练模型的一部分,而将其他的参数保持不变,也就是冻结这些权重。下面是关于如何冻结ResNet50模型部分的一种实现方法: 1. 导入必要的库和模块: ```python import torch import torchvision.models as models ``` 2. 加载ResNet50模型: ```python model = models.resnet50(pretrained=True) ``` 3. 冻结部分: ```python for param in model.parameters(): param.requires_grad = False # 需要微调的可以通过requires_grad_(True)来重新设置为可训练 model.fc.requires_grad_(True) ``` 在上述代码,我们首先导入PyTorch和torchvision的库和模块。然后,通过调用`models.resnet50(pretrained=True)`来加载预训练的ResNet50模型。 接下来,我们使用一个for循环来遍历模型的所有参数,并将其`requires_grad`属性设置为`False`,这样就会冻结所有的,使其不可训练。 最后,如果我们希望微调模型的最后全连接(即`model.fc`),我们可以使用`requires_grad_(True)`将其重新设置为可训练。 通过上述步骤,我们就可以冻结ResNet50模型的大部分,并只训练部分,以满足特定的需求。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值