深度学习与神经网络笔记 Day4——【语义分割】

Zhangyilin778

于 2024-05-20 22:25:53 发布

阅读量954

点赞数 30

文章标签：深度学习神经网络笔记

本文链接：https://blog.csdn.net/m0_46939194/article/details/139076184

版权

1. 图像分割

在计算机视觉中，图像分割是根据像素的不同性质将数字图像分割成多个区域。与分类和目标检测不同，它通常是一个低级或像素级的视觉任务，因为图像的空间信息对于从语义上分割不同的区域非常重要。分割的目的是提取有意义的信息以便于分析。在这种情况下，图像像素以这样的方式被标记，使得图像中的每个像素共享诸如颜色、强度、纹理等的特定特征。图像分割主要有两种类型：语义分割和实例分割。另外，还有另一种类型叫做全景分割，它是两种基本分割过程的统一版本。图1显示了不同类型的分段，图2显示了相同的示例。在后面的章节中，我们详细讨论了不同的基于CNN的图像分割技术的研究现状。

图像语义分割（semantic segmentation），从字面意思上理解就是让计算机根据图像的语义来进行分割，例如让计算机在输入下面左图的情况下，能够输出右图。语义在语音识别中指的是语音的意思，在图像领域，语义指的是图像的内容，对图片意思的理解，比如左图的语义就是三个人骑着三辆自行车；分割的意思是从像素的角度分割出图片中的不同对象，对原图中的每个像素都进行标注，比如下图粉红色代表人，绿色代表自行车。

2. 语义分割

2.1. CNN语义分割模型的演化

CNN在语义切分模型中的应用有着巨大的多样性。R-CNN首先使用选择性搜索算法提取区域建议，然后将CNN应用于PASCAL VOC语义分割。R-CNN在二阶池化（O2P）上取得了创纪录的结果，这是当时领先的人工语义分割系统。同时，Gupta等人在RGB-D图像上使用CNN和几何中心嵌入，进行语义分割。

在不同的基于CNN的语义分割模型中，3.2.1小节讨论的全卷积网络（FCN）得到了最大的关注，并且出现了基于FCN的语义分割模型的趋势。为了保留图像的空间信息，基于FCN的模型去除了传统CNN的完全连通层。另外，还有研究人员使用了上下文特征并实现了最先进的表现。在最近的文献中，作者利用全卷积双流融合网络进行交互式图像分割。

Chen等人在语义切分中结合了atrous算法和条件随机场（CRF），并提出了DeepLab，如第3.2.2小节所述。后来，作者在DeepLabv2中加入了“Atrous Special Pyramid Pooling”（ASPP）。DeepLabv3更进一步，使用了级联的深度ASPP模块来合并多个上下文。DeepLab的三个版本都取得了良好的效果。

DeconvNet使用卷积网络，然后使用层次相反的去卷积网络进行语义分割，如第3.2.3节所述。Ronneberger等人使用了一个称为U-Net的U形网络，它有一个收缩和扩展的路径来完成语义分割。收缩路径是一个传统的卷积网络，提取特征图并减少空间信息；扩展路径把收缩后的特征图为输入，进行上卷积，第3.2.3节更详细地讨论了该模型。最近在文献中，作者将带多分辨率块的U-Net用于多模态生物医学图像分割，取得了比经典U-Net更好的分割效果。SegNet是一个用于语义分割的编解码网络。编码器是一个基本的VGG16网络，不包括FC层。解码器与编码器相同，但层次相反。SegNet在第3.2.3节中讨论。U-Net、DeconvNet和SegNet的基本架构直觉是相似的，除了一些单独的修改。这些架构的后半部分是前半部分的镜像。

Liu等人融合了FCN体系结构中全局平均池和L2规范化层的本质，提出了ParseNet来实现各种数据集的最新结果。Zhao等人提出了“Pyramid Scene Parsing Network”（PSPNet）。他们在最后提取的特征图上使用了金字塔池模块来合并全局上下文信息，以便更好地进行分割。Peng等人利用大核函数的全局卷积思想，充分利用了局部特征和全局特征的优点。Pyramid Attention Network（PAN）、ParseNet、PSPNet和GCN利用了具有局部特征的全局上下文信息来进行更好的分割。

2.2 语义分割模型

2.2.1 FCN

《Fully Convolutional Networks for Semantic Segmentation》https://arxiv.org/abs/1411.4038
FCN是不含全连接层的全卷积网络，对图像进行像素级的分类，解决了图像的语义分割问题，可以接受任意尺寸的图像大小，采用反卷积对最后一个特征图（feature map）进行处理，使其恢复到输入图像的尺寸，对每个像素产生一个预测，同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。（反卷积和卷积类似，都是相乘相加的运算。只不过后者是多对一，前者是一对多），最后逐个像素计算softmax分类的损失, 相当于每一个像素对应一个训练样本。下图是Longjon用于语义分割所采用的全卷积网络(FCN)的结构示意图：

2.2.2 UNet

《U-Net: Convolutional Networks for Biomedical Image Segmentation》
https://arxiv.org/pdf/1505.04597.pdf
Unet的结构是先编码（下采用）再解码（上采样）的U形结构，保持输入和输出大小一样。在FCN中，Skip connection的联合是通过对应像素的求和，而U-Net则是对其的channel的concat过程。

2.2.3 Segnet

《A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》 https://arxiv.org/abs/1511.00561
Segnet和Unet有点像，它采用的是编码-解码的结构，这样的对称结构有种自编码器的感觉在里面，先编码再解码。这样的结构主要使用了反卷积和上池化。解码器通过池化索引来实现非线性的上采样，这个池化索引是由与解码器相对应的编码器进行最大池化操作计算得到的。