FCN:Fully convolutional networks for semantic segmentation

本文介绍了语义分割的概念、应用及其与图像分类的差异。详细阐述了FCN(全卷积网络)的模型结构,包括如何通过反卷积解决像素级识别问题,并对比了不同层的反卷积效果。实验结果表明FCN在语义分割任务上取得了优异的性能,尤其是在提高细节恢复和效率方面。
摘要由CSDN通过智能技术生成

一、语义分割简介

1.1 什么是语义分割?

在这里插入图片描述
语义分割:让机器实现对图像进行自动分割并识别图像中的内容

如上图中,给出一张图片,机器能识别图片中的物体并分割出结果图,即把不同的物体从图像中分割出来

1.2 研究意义

在这里插入图片描述
当前应用:

  • 地理信息系统
  • 无人车驾驶
  • 医疗影像分析
  • 机器人等领域

与图像分类或目标检测相比,语义分剖使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等许多领域都是非常重要的。

1.3 研究现状

在这里插入图片描述

1.4 实现流程

训练:
根据batch size大小,将数据集中的训练样本和标签读入卷积神经网络。根据实际需要,应先对训练图片及标签进行预处理,如裁剪、数据增强等。这有利于深层网络的的训练,加速收敛过程,同时也避免过拟合问题并增强了模型的泛化能力。

验证:
训练一个epoch结束后,将数据集中的验证样本和标签读入卷积神经网络,并载入训练权重。根据编写好的语义分割指标进行验证,得到当前训练过程中的指标分数,保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。

测试:
所有训练结束后,将数据集中的测试样本和标签读入卷积神经网络,并将保存的最好权重值载入模型,进行测试。测试结果分为两种,一种是根据常用指标分数衡量网络性能,另一种是将网络的预测结果以图片的形式保存下来,直观感受分割的精确程度。

1.5 常用数据集

在这里插入图片描述

二、论文内容

2.1 摘要

  1. 搭建一个全卷积网络,输入任意尺寸的图像,经过有效推理和学习得到相应尺寸的输出。
  2. 将当前分类网络改编成全卷积网络,如AlexNet, VGGNet以及 GoogleNet.
  3. 在PASCAL VOC, NYUDv2和SIFT Flow数据集上得到了state-of-the-art的结果。

2.2 引言

  1. 卷积网络推动了计算机视觉任务的发展,利用卷积网络对每一个像素进行分类的过程中,早前的方法会将每个像素标记为封闭对象或区域中的某个类别,这一做法存在缺点。
  2. 实验表明,端到端训练的FCN网络在语义分割任务中超过了现有技术水平。这是第一个在像素级别且在监督式预训练下完成的网络模型。
  3. 语义分割面临着语义信息和位置信息之间固有的紧张关系,后期经验表明,全局信息和局部信息往往不能同时得到,但两者的重要程度却是相同的。

2.3 相关工作

  1. 重新设计和微调现有的分类模型来指导语义分割的密集预测内容。
  2. 虽然近期已经有研究团队将卷积网络应用到密集预测任务中,但这些方法都存在一些不足,如感知范围有限、需要传统方法进行后处理等。
  3. 与现有网络不同, FCN使用图像分类作为监督式预训练来调整和扩展深度分类结构,并通过全卷积进行微调,目的是从整个输入图像和标签中简单高效地学习特征。
  4. FCN将各个层的特征融合在一起,旨在将局部特征与全局特征相结合,达到让网络自发微调的效导

2.4 模型结构

2.4.1 模型对比

经典模型结构:
在这里插入图片描述
以VGG为例的CNN网络,最后会用三个全连接层产生三个一维向量。最后向量中的1000个元素所表达的信息是: 这张原始输入图片中的物体可能是1000个分类中,某物体的概率。

由此可见, CNN的输入是一张图片,而输出是一个概率值.

CNN网络的缺点在于,网络中的后三层都是一维向量,不再使用卷积计算,因此会丢失大量二维信息。

本文模型结构:
在这里插入图片描述
与CNN网络不同, FCN达到的目的是,输入一张图像,输出也是一张图像,学习像素到像素的映射。

FCN网络中,将CNN网络的后三层全部转化为1x1的卷积核所对应等同向量长度的多通道卷积层。

整个网络模型全部都由卷积层组成,没有全连接层产生的向量。
简单来说, CNN是图像级的识别,也就是从图像到结果。而FCN是像素级的识别,标注出输入图像上的每一个像素最可能属于哪一类别。

2.4.2 模型详解

在这里插入图片描述
FCN网络模型中,每一层都包含了卷积+池化,也就是常说的下采样,这样得到的结果是图像的像素信息变小。

为了达到端到端训练的目的,就必须对缩小后的图像进行还原,即上采样。

本文提出的反卷积方法,可以对任一卷积层做反卷积处理,得到放大后的图像。

在这里插入图片描述
本文没有沿用以往的插值上采样(Interpolation) ,而是提出了新的上采样方法,即反卷积 (Deconvolution) 。

反卷积可以理解为卷积操作的逆运算, 反卷积并不能复原因卷积操作造成的值的损失,它仅仅是将卷积过程中的步骤反向变换一次,因此它还可以被称为转置卷积。

在这里插入图片描述
在较深卷积层使用反卷积进行还原时会丢失很多细节特征,于是在反卷积步骤中,会考虑采用一部分较浅层的信息进行辅助叠加,更好的优化分割结果精度。

其主要思路是将不同池化层的结果进行上采样, 然后结合这些结果来优化输出。

fcn-32s 就是直接将最后的结果通过转置卷积扩大 32 倍进行输出,而 fcn-16s 就是联合前面一次的结果进行 16 倍的输出,fcn-8s 就是联合前面两次的结果进行 8 倍的输出

在这里插入图片描述
上述提到的辅助叠加,实际上就是Resnet中所提到的跳跃连接结构,所以,本文中也就是通过加入跳跃连接结构来优化最终结果

在这里插入图片描述

此外,论文中对比了不同尺寸的特征图利用反卷积还原后的效果,在16倍和8倍还原时能够看到更好的细节,但32倍还原结果很粗糙。

这就涉及一个概念,即感受域(Receptive Field) .较浅层卷积层的感受域较小,但学习感知细节部分的能力较强;较深卷积层的感受域较大,适合学习较为整体的、相对宏观的特征。

2.5 实验和结果

2.5.1 实验常用指标

假设: 共有k+1个类, p i j p_{ij} pij表示本属于类 i i i 但被预测为类 j j j 的像素数量。即, p i i p_{ii} pii表示真正的数量, 而 p i j p_{ij} pij p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值