图像语义分割（一）

最新推荐文章于 2024-07-12 15:12:25 发布

爱弹ukulele的程序猿

最新推荐文章于 2024-07-12 15:12:25 发布

阅读量1.2w

点赞数 5

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/qq_38622495/article/details/82389819

版权

1 图像语义分割的概念

图像语义分割，简单而言就是给定一张图片，对图片上的每一个像素点分
类
这里写图片描述

2 语义分割的网络

2.1 FCN 全卷积网络

作者的FCN主要使用了三种技术：

卷积化（Convolutional）
上采样（Upsample）
跳跃结构（Skip Layer）

直接进行像素级别端到端（end-to-end）的语义分割，它可以基于主流的深度卷积神经网络模型（CNN）来实现。
这里写图片描述

2.1.1 卷积化

在FCN中，传统的全连接层 fc6 和 fc7 均是由卷积层实现，而最后的 fc8 层则被替代为一个 21 通道（channel）的 1x1 卷积层，作为网络的最终输出。之所以有 21 个通道是因为 PASCAL VOC 的数据中包含 21 个类别（20个object类别和一个「background」类别）。

2.1.2 上采样、跳跃结构

FCN 利用双线性插值将响应张量的长宽上采样到原图大小，另外为了更好的预测图像中的细节部分，FCN 还将网络中浅层的响应也考虑进来。就是将 Pool4 和 Pool3 的响应也拿来，分别作为模型 FCN-16s 和 FCN-8s 的输出，与原来 FCN-32s 的输出结合在一起做最终的语义分割预测（如下图所示）。

这里写图片描述

2.1.3 上采样的方法

FCN的架构使用了可学习的反卷积滤波器来上采样特征图。之后上采样的特征图被加入编码阶段产生的元素级的特征图中。

先进行上采样，即扩大像素；
再进行卷积——通过学习获得权值
卷积核尺寸大，一步到位

2.1.4 FCN 的结果

下图是不同层作为输出的语义分割结果，可以明显看出，由于池化层的下采样倍数的不同导致不同的语义分割精细程度。如 FCN-32s，由于是 FCN 的最后一层卷积和池化的输出，该模型的下采样倍数最高，其对应的语义分割结果最为粗略；而 FCN-8s 则因下采样倍数较小可以取得较为精细的分割结果。
这里写图片描述

2.2 Dilated Convolutions

FCN 的一个不足之处在于，由于池化层的存在，响应张量的大小（长和宽）越来越小，但是FCN的设计初衷则需要和输入大小一致的输出，因此 FCN 做了上采样。但是上采样并不能将丢失的信息全部无损地找回来。
池化层可以能增大上层卷积核的感受野，而且能聚合背景同时丢弃部分位置信息。然而，语义分割方法需对类别图谱进行精确调整，因此需保留池化层中所舍弃的位置信息。

对此，dilated convolution 是一种很好的解决方案——既然池化的下采样操作会带来信息损失，那么就把池化层去掉。但是池化层去掉随之带来的是网络各层的感受野（Receptive field）变小，这样会降低整个模型的预测精度。Dilated convolution 的主要贡献就是，如何在去掉池化下采样操作的同时，而不降低网络的感受野。

2.2.1 膨胀卷积（Dilated Convolutions）

以 3×3 的卷积核为例，传统卷积核在做卷积操作时，是将卷积核与输入张量中「连续」的 3×3 的 patch 逐点相乘再求和（如下图a，红色圆点为卷积核对应的输入「像素」，绿色为其在原输入中的感知野）。而 dilated convolution 中的卷积核则是将输入张量的 3×3 patch 隔一定的像素进行卷积运算。如下图 b 所示，在去掉一层池化层后，需要在去掉的池化层后将传统卷积层换做一个「dilation=2」的 dilated convolution 层，此时卷积核将输入张量每隔一个「像素」的位置作为输入 patch 进行卷积计算，可以发现这时对应到原输入的感知野已经扩大（dilate）倍；同理，如果再去掉一个池化层，就要将其之后的卷积层换成「dilation=4」的 dilated convolution 层，如图 c 所示。这样一来，即使去掉池化层也能保证网络的感受野，从而确保图像语义分割的精度。
这里写图片描述