[论文快读] FCN (2014)

标题:Fully Convolutional Networks for Semantic Segmentation
作者:Jonathan Long, Evan Shelhamer, Trevor Darrell
地址:https://arxiv.org/abs/1411.4038
摘要:
abs
参考代码:https://github.com/pochih/FCN-pytorch/issues

FCN的思想在LeNet之前就提出过,但是对FCN进行以像素级预测(pixelwise prediction)和有监督预训练(fine-tuning)进行端到端的训练则是本文首创。该思想在后续的OverFeat等架构里面被反复用到,所以有必要读一下原文。

本文的工作包括四部分:FCN design, dense prediction tradeoffs, in-network upsampling和multilayer combinations。

FCN网络的仅有卷积层、池化或者激活函数层组成(文中记作 f k s ( x i j ) f_{ks}(x_{ij}) fks(xij))。其loss函数的形式决定了任务(如分割)。分割任务中,需要对feature map的每个像素分别计算loss,求和之后作为总的loss。这样,对于总的loss执行SGD等价于对每个小的loss分别执行SGD。

对分类网络执行fine-tuning的操作包括把全联接层改成若干个1*1的卷积(如图)
在这里插入图片描述
没有了全联接层,也就意味着input不再需要warp和crop成特定size,任意大小的输入都能获得一个稍小的“hot map”(不一样大是因为池化的过程产生了降采样)。后续的任务是把该hot map映射到原图size。实验显示,AlexNet的finetuning效果优于GoogLeNet。

文中介绍了一种升采样方法——shift-and-stitch。该方法在OverFeat中提到过,这两篇文章说的挺明白的:https://blog.csdn.net/qq_35732097/article/details/79027095 的3.3、3.4节和 https://www.jianshu.com/p/e534e2be5d7d 介绍地挺明白的,这里不再赘述。值得一提的是,琢磨了半天shift-and-stitch,结果最后作者说这个方法的效果不如解卷积(deconvolution)的双线性插值法效果好,“所以我们没有用它”(||-_-)

虽然deconvolution已经足够好了,但是作者又憋了一个大招——deep jet。

deep jet的key idea是跨层连接,这和ResNet中的shortcut倒是有异曲同工之妙。由于整个网络的低层所包含的信息比高层丰富,所以把低层的池化输出和高的deconvolution连接起来,把原来的线状结构组成DAG(有向无环图)状结构,即可得到性能更加优异的模型。
在这里插入图片描述

# FCN16s
def forward(self, x):
    output = self.pretrained_net(x) #包含了5个池化层的输出
    x5 = output['x5']  # size=(N, 512, x.H/32, x.W/32)
    x4 = output['x4']  # size=(N, 512, x.H/16, x.W/16)

    score = self.relu(self.deconv1(x5))               # size=(N, 512, x.H/16, x.W/16)
    score = self.bn1(score + x4)                      # element-wise add, size=(N, 512, x.H/16, x.W/16)
    score = self.bn2(self.relu(self.deconv2(score)))  # size=(N, 256, x.H/8, x.W/8)
    score = self.bn3(self.relu(self.deconv3(score)))  # size=(N, 128, x.H/4, x.W/4)
    score = self.bn4(self.relu(self.deconv4(score)))  # size=(N, 64, x.H/2, x.W/2)
    score = self.bn5(self.relu(self.deconv5(score)))  # size=(N, 32, x.H, x.W)
    score = self.classifier(score)                    # size=(N, n_class, x.H/1, x.W/1)

    return score  # size=(N, n_class, x.H/1, x.W/1)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值