一、语义分割简介
1.1 什么是语义分割?
语义分割:让机器实现对图像进行自动分割并识别图像中的内容
如上图中,给出一张图片,机器能识别图片中的物体并分割出结果图,即把不同的物体从图像中分割出来
1.2 研究意义
当前应用:
- 地理信息系统
- 无人车驾驶
- 医疗影像分析
- 机器人等领域
与图像分类或目标检测相比,语义分剖使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等许多领域都是非常重要的。
1.3 研究现状
1.4 实现流程
训练:
根据batch size大小,将数据集中的训练样本和标签读入卷积神经网络。根据实际需要,应先对训练图片及标签进行预处理,如裁剪、数据增强等。这有利于深层网络的的训练,加速收敛过程,同时也避免过拟合问题并增强了模型的泛化能力。
验证:
训练一个epoch结束后,将数据集中的验证样本和标签读入卷积神经网络,并载入训练权重。根据编写好的语义分割指标进行验证,得到当前训练过程中的指标分数,保存对应权重。常用一次训练一次验证的方法更好的监督模型表现。
测试:
所有训练结束后,将数据集中的测试样本和标签读入卷积神经网络,并将保存的最好权重值载入模型,进行测试。测试结果分为两种,一种是根据常用指标分数衡量网络性能,另一种是将网络的预测结果以图片的形式保存下来,直观感受分割的精确程度。
1.5 常用数据集
二、论文内容
2.1 摘要
- 搭建一个全卷积网络,输入任意尺寸的图像,经过有效推理和学习得到相应尺寸的输出。
- 将当前分类网络改编成全卷积网络,如AlexNet, VGGNet以及 GoogleNet.
- 在PASCAL VOC, NYUDv2和SIFT Flow数据集上得到了state-of-the-art的结果。
2.2 引言
- 卷积网络推动了计算机视觉任务的发展,利用卷积网络对每一个像素进行分类的过程中,早前的方法会将每个像素标记为封闭对象或区域中的某个类别,这一做法存在缺点。
- 实验表明,端到端训练的FCN网络在语义分割任务中超过了现有技术水平。这是第一个在像素级别且在监督式预训练下完成的网络模型。
- 语义分割面临着语义信息和位置信息之间固有的紧张关系,后期经验表明,全局信息和局部信息往往不能同时得到,但两者的重要程度却是相同的。
2.3 相关工作
- 重新设计和微调现有的分类模型来指导语义分割的密集预测内容。
- 虽然近期已经有研究团队将卷积网络应用到密集预测任务中,但这些方法都存在一些不足,如感知范围有限、需要传统方法进行后处理等。
- 与现有网络不同, FCN使用图像分类作为监督式预训练来调整和扩展深度分类结构,并通过全卷积进行微调,目的是从整个输入图像和标签中简单高效地学习特征。
- FCN将各个层的特征融合在一起,旨在将局部特征与全局特征相结合,达到让网络自发微调的效导
2.4 模型结构
2.4.1 模型对比
经典模型结构:
以VGG为例的CNN网络,最后会用三个全连接层产生三个一维向量。最后向量中的1000个元素所表达的信息是: 这张原始输入图片中的物体可能是1000个分类中,某物体的概率。
由此可见, CNN的输入是一张图片,而输出是一个概率值.
CNN网络的缺点在于,网络中的后三层都是一维向量,不再使用卷积计算,因此会丢失大量二维信息。
本文模型结构:
与CNN网络不同, FCN达到的目的是,输入一张图像,输出也是一张图像,学习像素到像素的映射。
FCN网络中,将CNN网络的后三层全部转化为1x1的卷积核所对应等同向量长度的多通道卷积层。
整个网络模型全部都由卷积层组成,没有全连接层产生的向量。
简单来说, CNN是图像级的识别,也就是从图像到结果。而FCN是像素级的识别,标注出输入图像上的每一个像素最可能属于哪一类别。
2.4.2 模型详解
FCN网络模型中,每一层都包含了卷积+池化,也就是常说的下采样,这样得到的结果是图像的像素信息变小。
为了达到端到端训练的目的,就必须对缩小后的图像进行还原,即上采样。
本文提出的反卷积方法,可以对任一卷积层做反卷积处理,得到放大后的图像。
本文没有沿用以往的插值上采样(Interpolation) ,而是提出了新的上采样方法,即反卷积 (Deconvolution) 。
反卷积可以理解为卷积操作的逆运算, 反卷积并不能复原因卷积操作造成的值的损失,它仅仅是将卷积过程中的步骤反向变换一次,因此它还可以被称为转置卷积。
在较深卷积层使用反卷积进行还原时会丢失很多细节特征,于是在反卷积步骤中,会考虑采用一部分较浅层的信息进行辅助叠加,更好的优化分割结果精度。
其主要思路是将不同池化层的结果进行上采样, 然后结合这些结果来优化输出。
fcn-32s 就是直接将最后的结果通过转置卷积扩大 32 倍进行输出,而 fcn-16s 就是联合前面一次的结果进行 16 倍的输出,fcn-8s 就是联合前面两次的结果进行 8 倍的输出
上述提到的辅助叠加,实际上就是Resnet中所提到的跳跃连接结构,所以,本文中也就是通过加入跳跃连接结构来优化最终结果
此外,论文中对比了不同尺寸的特征图利用反卷积还原后的效果,在16倍和8倍还原时能够看到更好的细节,但32倍还原结果很粗糙。
这就涉及一个概念,即感受域(Receptive Field) .较浅层卷积层的感受域较小,但学习感知细节部分的能力较强;较深卷积层的感受域较大,适合学习较为整体的、相对宏观的特征。
2.5 实验和结果
2.5.1 实验常用指标
假设: 共有k+1个类, p i j p_{ij} pij表示本属于类 i i i 但被预测为类 j j j 的像素数量。即, p i i p_{ii} pii表示真正的数量, 而 p i j p_{ij} pij和 p