转置卷积到FCN

本文介绍了转置卷积,其与普通卷积的区别,以及如何在FCN网络中使用转置卷积进行像素级别的分割。通过ResNet18预训练模型,展示了如何构建和训练这样一个网络,最终在语义分割任务中取得约0.86的效果。
摘要由CSDN通过智能技术生成

 首先介绍一下转置卷积,其和一般的卷积相比有些许复杂,运算步骤如下。

  • 在输入的特征元素中间填充s-1行和列
  • 在输入特征图四周填充k-p-1行和列
  • 将卷积核上下,左右翻转
  • 做正常的卷积运算

k=3,s=1,p=0

                                                         k=3,s=2,p=0

k=3,s=2,p=1

现在介绍一下FCN,这个网络相比之下比较简单,会给人一种,你来你也行的感觉,但这个网络15年确实在语义分割方面有很好的效果,为之后奠定了基础。

网络架构:图片经过一个卷积神经网络的处理,然后是一个1×1的卷积层,之后是一个转置卷积层,最后便可以实现像素级别的分割。

代码如下:

import matplotlib.pyplot as plt
import torch
from d2l import torch as d2l
import torchvision
from torch import nn
from torch.nn import functional as F

导入所需要的包

pretrained_net=torchvision.models.resnet18(pretrained=True)
#print(list(pretrained_net.children())[-3:])

net=nn.Sequential(*list(pretrained_net.children())[:-2])

第一个卷积网络用的是resnet18,把最后两层去掉。

num_classes=21
net.add_module('final_conv',nn.Conv2d(512,num_classes,kernel_size=1))
net.add_module('transpose_conv',nn.ConvTranspose2d(num_classes,num_classes,kernel_size=64,padding=16,stride=32))

 前面的网络让图像变成了原来的三十二分之一,现在想把图像的大小变回来,设k=64,p=16,s=32。 我们可以看到如果步幅为s,填充为s/2(假设s/2是整数)且卷积核的高和宽为2s,转置卷积核会将输入的高和宽分别放大s倍。

def bilinear_kernel(in_channels,out_channels,kernel_size):
    factor=(kernel_size+1)//2
    if kernel_size%2==1:
        center=factor-1
    else:
        center=factor-0.5
    og=(torch.arange(kernel_size).reshape(-1,1),
        torch.arange(kernel_size).reshape(1,-1))
    filt=(1-torch.abs(og[0]-center)/factor)*(1-torch.abs(og[1]-center)/factor)
    weight=torch.zeros((in_channels,out_channels,kernel_size,kernel_size))
    weight[range(in_channels),range(out_channels),:,:]=filt
    return weight

conv_trans=nn.ConvTranspose2d(3,3,kernel_size=4,padding=1,stride=2,bias=False)
conv_trans.weight.data.copy_(bilinear_kernel(3,3,4))

 双线性插值法来初始化kernael的参数,双线性插值常用于图像识别中的上采样,即放大图片后需要确定这一点的像素。  B站上有相应的双线性插值的讲解。

W = bilinear_kernel(num_classes, num_classes, 64)
net.transpose_conv.weight.data.copy_(W)
#读取数据集
batch_size, crop_size = 16, (320, 480)
train_iter, test_iter = d2l.load_data_voc(batch_size, crop_size)
def loss(inputs, targets):
    return F.cross_entropy(inputs, targets, reduction='none').mean(1).mean(1)

num_epochs, lr, wd, devices = 5, 0.001, 1e-3, d2l.try_all_gpus()
trainer = torch.optim.SGD(net.parameters(), lr=lr, weight_decay=wd)
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)

最后来训练一下,效果可以达到0.86左右,原论文中一开始的网络选用的不是resnet18,而是VGG16,可以参考原论文

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值