GCN：使用大卷积核+全局卷积来改进语义分割

AICVHub

已于 2024-10-22 17:03:11 修改

阅读量3.6k

点赞数 2

分类专栏：语义分割论文笔记 DeepLearning 文章标签： GCN 语义分割全局卷积网络边界细化

于 2021-01-17 19:46:59 首次发布

本文链接：https://blog.csdn.net/oYeZhou/article/details/112317983

版权

DeepLearning 同时被 3 个专栏收录

73 篇文章

订阅专栏

论文笔记

64 篇文章

订阅专栏

语义分割

21 篇文章

订阅专栏

论文地址：https://arxiv.org/abs/1703.02719

非官方pytorch实现：https://github.com/ycszen/pytorch-segmentation/blob/master/gcn.py

0、摘要

此前在网络结构的设计上一个趋势是使用小卷积核，因为在相同的计算复杂度下，堆叠小卷积核比大卷积核效率更高。然而，在语义分割这种需要进行密集逐像素预测的领域，当我们必须同时执行分类和定位任务时，大卷积核（有效感受野）扮演着重要角色。遵循我们的设计原则，我们提出了一个全局卷积网络（GCN）来解决语义分割的分类和定位问题。我们还提出了基于残差的边界细化来进一步细化目标边界。我们的方法实现了SOTA——在两个公开数据集上显著超过了之前的结果：在PASCAL VOC 2012数据集上的82.2%(vs80.2%)和Cityscapes数据集上的76.9% (vs 71.8%)。

1、动机

作者指出了语义分割中的两个任务：分类和定位。也即：对于分类任务来说，需要把每个像素分为对应类别，对于定位任务来说，需要像素的类标签和其真实位置相对应。但是这两个任务是天然对立的：分类任务是要求模型旋转、平移不变的，而定位任务是平移敏感的。

传统语义分割主要解决的是定位问题，如图1B所示：

可以看出，传统方式是对分类不友好的。

本文提出了一个改进的网络结构，称为 Global Convolutional Network（GCN），可以同时解决分类和定位问题。GCN的设计准则为：

对于定位来说，模型应该是全卷积的，以保持定位性能，而不能有全连接或者池化这些会损失定位信息的操作；
对于分类来说，应该在网络结构中使用大卷积核，使特征映射和逐像素分类器之间能够紧密连接，从而增强处理不同变换的能力。

基于这种准则，GCN使用FCN类的结构生成语义得分map，如图1A所示。另外，是GCN更适合使用，使用了对称、可分离的大卷积核。为了提高边界的定位精度，引入了边界细化块，将边界信息建模为残差结构，如图1C所示。而由于没有使用类似CRF的后处理，所以GCN是端到端的。

总体来说，本文提出了一个用于同时解决定位和分类这两个矛盾问题的网络结构——GCN，并提出了一个边界细化模块来得到精细的物体边界，在PASCAL VOC 2012和Cityscapes数据集上达到了SOTA。

2、本文方法

对于分类问题，网络通常为锥形，如图1A：通过小卷积核逐层提取高级语义特征，但是空间信息就变得越来越粗糙了；对于定位问题，缺需要相对较大的feature map，所以网络结构就是筒状的，如图1B。在语义分割时领域，为了更好的定位，通常是图1B的网络结构，其利用反卷积、反池化、空洞卷积等技术获取高分辨率feature map，然后将分类器与每个空间位置相连接，从而生成像素级的分割标签。由于这些方法主要关注定位问题，所以分类性能总是次优的。由于分类器是和feature map局部连接的，所以通常很难处理不同的变换。

基于上述问题，本文提出了GCN模块，其设计准则也如上文所说：全卷积+大卷积核。GCN的结构如图2B所示：

注意：GCN中的大卷积核并非直接使用一个K*K的大尺寸，而是K*1+1*K和1*K+K*1的组合来实现K*K区域feature map的连接。此外，在卷积层之间没有使用任何非线性操作。

整体的网络设计如图2所示。其使用了预训练的Resnet作为特征提取网络，并从网络的不同位置提取多尺度信息。如上图A中，对resnet的每个层（res-2/res-3/res-4/res-5）分别理由GCN生成一组score maps，低分辨率的score maps通过反卷积上采样到与高分辨率score maps相同的大小，然后add起来。最终的score maps经过最后一个反卷积上采样，生成了预测结果。

此外，还提出了一个边界细化模型，如图2C。该模块为残差结构： $\tilde{S}=S+\mathcal{R}(S)$ ，其中 $\mathcal{R}$ 是残差分支。

网络结构整体描述：

我们从图2的网络结构可以看出，输入图像首先经过backbone各个层，生成对应的feature map，每个层级的feature map分别经过GCN、BR模块；如果该层的feature map是低分辨率的，需要使用反卷积上采样，然后和上层feature map 通过add融合起来，然后再经过一个BR模块后，如果还不是最高分辨率的feature map，还需要重复使用上采样、add与其上层融合；如此，融合了所有层之后，最后再经过BR+反卷积上采样+BR，即可得到最终的预测图。