语义分割分割常用网络

最新推荐文章于 2024-07-26 15:57:18 发布

kakak_

最新推荐文章于 2024-07-26 15:57:18 发布

阅读量1.8w

点赞数 16

分类专栏： CV

本文链接：https://blog.csdn.net/kakak_/article/details/105765483

版权

CV 专栏收录该内容

10 篇文章 4 订阅

订阅专栏

语义分割

图像的语义分割是将输入图像中的每个像素分配一个语义类别，以得到像素化的密集分类。
在这里插入图片描述

一般的语义分割架构可以被认为是一个编码器-解码器网络。编码器通常是一个预训练的分类网络，像 VGG、ResNet，然后是一个解码器网络。这些架构不同的地方主要在于解码器网络。解码器的任务是将编码器学习到的可判别特征（较低分辨率）从语义上投影到像素空间（较高分辨率），以获得密集分类。
不同于分类任务中网络的最终结果（对图像分类的概率）是唯一重要的事，语义分割不仅需要在像素级有判别能力，还需要有能将编码器在不同阶段学到的可判别特征投影到像素空间的机制。不同的架构采用不同的机制（跳跃连接、金字塔池化等）作为解码机制的一部分。

Fully Convolution Networks (FCNs) 全卷积网络

2015 Fully Convolutional Networks for Semantic Segmentation

在传统的分类 CNN 中，池化操作用来增加视野，同时减少特征图的分辨率。这对于分类任务来说非常有用，因为分类的最终目标是找到某个特定类的存在，而对象的空间位置无关紧要。因此，在每个卷积块之后引入池化操作，以使后续块能够从已池化的特征中提取更多抽象、突出类的特征。

但是池化和带步长的卷积对语义分割是不利的，因为这些操作造成了空间信息的丢失。语义分割的大多数架构在解码器中使用了不同的机制，目的都在于恢复在编码器中降低分辨率时丢失的信息。如下图所示，FCN-8s 融合了不同粗糙度（conv3、conv4和fc7）的特征，利用编码器不同阶段不同分辨率的空间信息来细化分割结果。
在这里插入图片描述
第一个卷积层捕捉低层次的几何信息，因为这完全依赖数据集，可以注意到梯度调整了第一层的权重以使模型适应数据集。VGG 中更深层的卷积层有非常小的梯度流，因为这里捕获的高层次的语义概念足够用于分割。

将当前分类网络（AlexNet, VGG net 和 GoogLeNet）修改为全卷积网络，通过对分割任务进行微调，将它们学习的表征转移到网络中。然后定义一种新的架构，它将深的、粗糙的网络层的语义信息和浅的、精细的网络层的表层信息结合起来，来生成精确和详细的分割。
在这里插入图片描述
特点

特征是由编码器中的不同阶段合并而成的，它们在语义信息的粗糙程度上有所不同。
低分辨率语义特征图的上采样使用经双线性插值滤波器初始化的反卷积操作完成。
从 VGG16、Alexnet 等分类器网络进行知识迁移来实现语义细分。

将全连接层转换成卷积层，使得分类网络可以输出一个类的热图。在这里插入图片描述
如上图所示，像 VGG16 分类网络的全连接层（fc6，fc7）被转换为全卷积层。它生成了一个低分辨率的类的热图，然后使用经双线性插值初始化的反卷积，并在上采样的每一个阶段通过融合（简单地相加） VGG16 中的低层（conv4和conv3）的更加粗糙但是分辨率更高的特征图进一步细化特征。