针对不同的计算机视觉任务,当我们想使用预训练模型时,可能会存在模型输入通道不一致的情况,比如预训练模型的输入通常为 RGB 3 通道,而我们自己的任务通道数可能大于 3,这时就需要对预训练模型的结构进行更改,下方代码展示的则是其中一种更改方式:
import torchvision.models as models
import torch.nn as nn
backbone = models.resnet18(pretrained=True)
old_conv1 = backbone.conv1
new_conv1 = nn.Conv2d(
in_channels=old_conv1.in_channels + 1, # 改成适合自己任务的通道数,此处通道数为 3+1=4
out_channels=old_conv1.out_channels,
kernel_size=old_conv1.kernel_size,
stride=old_conv1.stride,
padding=old_conv1.padding,
bias=True if old_conv1.bias else False,
)
new_conv1.weight[:, :old_conv1.in_channels, :, :].data.copy_(old_conv1.weight.clone())