FCN：Fully convolutional networks for semantic segmentation

最新推荐文章于 2022-03-19 21:15:41 发布

G5Lorenzo

最新推荐文章于 2022-03-19 21:15:41 发布

阅读量427

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36825778/article/details/104246106

版权

本文介绍了语义分割的概念、应用及其与图像分类的差异。详细阐述了FCN（全卷积网络）的模型结构，包括如何通过反卷积解决像素级识别问题，并对比了不同层的反卷积效果。实验结果表明FCN在语义分割任务上取得了优异的性能，尤其是在提高细节恢复和效率方面。

摘要由CSDN通过智能技术生成

一、语义分割简介

1.1 什么是语义分割？

在这里插入图片描述
语义分割：让机器实现对图像进行自动分割并识别图像中的内容

如上图中，给出一张图片，机器能识别图片中的物体并分割出结果图，即把不同的物体从图像中分割出来

1.2 研究意义

在这里插入图片描述
当前应用：

地理信息系统
无人车驾驶
医疗影像分析
机器人等领域

与图像分类或目标检测相比,语义分剖使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等许多领域都是非常重要的。

1.3 研究现状

在这里插入图片描述

1.4 实现流程

训练：
根据batch size大小,将数据集中的训练样本和标签读入卷积神经网络。根据实际需要,应先对训练图片及标签进行预处理,如裁剪、数据增强等。这有利于深层网络的的训练,加速收敛过程,同时也避免过拟合问题并增强了模型的泛化能力。

验证：
训练一个epoch结束后,将数据集中的验证样本和标签读入卷积神经网络,并载入训练权重。根据编写好的语义分割指标进行验证,得到当前训练过程中的指标分数,保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。

测试：
所有训练结束后,将数据集中的测试样本和标签读入卷积神经网络,并将保存的最好权重值载入模型,进行测试。测试结果分为两种,一种是根据常用指标分数衡量网络性能,另一种是将网络的预测结果以图片的形式保存下来,直观感受分割的精确程度。

1.5 常用数据集

在这里插入图片描述

二、论文内容

2.1 摘要

搭建一个全卷积网络,输入任意尺寸的图像,经过有效推理和学习得到相应尺寸的输出。
将当前分类网络改编成全卷积网络,如AlexNet, VGGNet以及 GoogleNet.
在PASCAL VOC, NYUDv2和SIFT Flow数据集上得到了state-of-the-art的结果。

2.2 引言

卷积网络推动了计算机视觉任务的发展,利用卷积网络对每一个像素进行分类的过程中,早前的方法会将每个像素标记为封闭对象或区域中的某个类别,这一做法存在缺点。
实验表明,端到端训练的FCN网络在语义分割任务中超过了现有技术水平。这是第一个在像素级别且在监督式预训练下完成的网络模型。
语义分割面临着语义信息和位置信息之间固有的紧张关系,后期经验表明,全局信息和局部信息往往不能同时得到,但两者的重要程度却是相同的。

2.3 相关工作

重新设计和微调现有的分类模型来指导语义分割的密集预测内容。
虽然近期已经有研究团队将卷积网络应用到密集预测任务中,但这些方法都存在一些不足,如感知范围有限、需要传统方法进行后处理等。
与现有网络不同, FCN使用图像分类作为监督式预训练来调整和扩展深度分类结构,并通过全卷积进行微调,目的是从整个输入图像和标签中简单高效地学习特征。
FCN将各个层的特征融合在一起,旨在将局部特征与全局特征相结合,达到让网络自发微调的效导

2.4 模型结构

2.4.1 模型对比

经典模型结构：
在这里插入图片描述
以VGG为例的CNN网络,最后会用三个全连接层产生三个一维向量。最后向量中的1000个元素所表达的信息是: 这张原始输入图片中的物体可能是1000个分类中,某物体的概率。

由此可见, CNN的输入是一张图片,而输出是一个概率值.

CNN网络的缺点在于,网络中的后三层都是一维向量,不再使用卷积计算,因此会丢失大量二维信息。

本文模型结构：
在这里插入图片描述
与CNN网络不同, FCN达到的目的是,输入一张图像，输出也是一张图像，学习像素到像素的映射。

FCN网络中,将CNN网络的后三层全部转化为1x1的卷积核所对应等同向量长度的多通道卷积层。

整个网络模型全部都由卷积层组成,没有全连接层产生的向量。
简单来说, CNN是图像级的识别，也就是从图像到结果。而FCN是像素级的识别,标注出输入图像上的每一个像素最可能属于哪一类别。

2.4.2 模型详解

在这里插入图片描述
FCN网络模型中,每一层都包含了卷积+池化,也就是常说的下采样,这样得到的结果是图像的像素信息变小。

为了达到端到端训练的目的,就必须对缩小后的图像进行还原,即上采样。

本文提出的反卷积方法,可以对任一卷积层做反卷积处理,得到放大后的图像。

在这里插入图片描述
本文没有沿用以往的插值上采样(Interpolation) ,而是提出了新的上采样方法,即反卷积 (Deconvolution) 。

反卷积可以理解为卷积操作的逆运算, 反卷积并不能复原因卷积操作造成的值的损失,它仅仅是将卷积过程中的步骤反向变换一次，因此它还可以被称为转置卷积。

在这里插入图片描述
在较深卷积层使用反卷积进行还原时会丢失很多细节特征,于是在反卷积步骤中,会考虑采用一部分较浅层的信息进行辅助叠加,更好的优化分割结果精度。

其主要思路是将不同池化层的结果进行上采样, 然后结合这些结果来优化输出。

fcn-32s 就是直接将最后的结果通过转置卷积扩大 32 倍进行输出，而 fcn-16s 就是联合前面一次的结果进行 16 倍的输出，fcn-8s 就是联合前面两次的结果进行 8 倍的输出

在这里插入图片描述
上述提到的辅助叠加，实际上就是Resnet中所提到的跳跃连接结构，所以，本文中也就是通过加入跳跃连接结构来优化最终结果

在这里插入图片描述

此外，论文中对比了不同尺寸的特征图利用反卷积还原后的效果,在16倍和8倍还原时能够看到更好的细节,但32倍还原结果很粗糙。

这就涉及一个概念,即感受域(Receptive Field) .较浅层卷积层的感受域较小,但学习感知细节部分的能力较强;较深卷积层的感受域较大,适合学习较为整体的、相对宏观的特征。

2.5 实验和结果

2.5.1 实验常用指标

假设: 共有k+1个类, $p_{ij}$ 表示本属于类 $i$ 但被预测为类 $j$ 的像素数量。即, $p_{ii}$ 表示真正的数量, 而 $p_{ij}$ 和

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。