膨胀卷积 & 有效感受野

最新推荐文章于 2023-01-07 22:45:57 发布

东方采菊

最新推荐文章于 2023-01-07 22:45:57 发布

阅读量1k

点赞数 1

文章标签：深度学习计算机视觉目标检测

本文链接：https://blog.csdn.net/Zen_of_code/article/details/127536998

版权

前言

在语义分割任务的编程实现中，通常会用到膨胀卷积（Dilated convolution），或者说是空洞卷积。那么什么是膨胀卷积呢？Gridding Effect是什么？以及常见的Hybird Dilated Convolution (HDC)膨胀因子如何设计？

对比普通卷积，在膨胀卷积的Kernel之间存在着间隙，间隙的大小即为膨胀因子，称为r。如下图所示，当r=1时为普通卷积；当r=2时为膨胀卷积。
在这里插入图片描述

在语义分割任务中，通常会使用分类网络作为backbone，在backbone中会对图片进行一系列的下采样。通过backbone之后，会使用一系列的上采样恢复原来的图片大小。如果特征图的高宽下采样倍率太大的话，还原到原来尺寸后，图片将丢失很多细节信息。

例如，在VGG网络中，通过max pooling层进行池化，这降低了特征图的高度和宽度，也丢失了一些细节信息，而丢失的信息无法通过上采样进行还原，在语义分割任务中将导致分割的效果不理想。而如果去掉max pooling层，将导致特征图的感受野变小。

利用膨胀卷积，既能增大感受野，又能保持输入输出特征图的高和宽不发生变化，解决了上述问题。但是，是否无脑堆叠膨胀卷积就可以了呢？

参考论文Understanding Convolution for Semantic Segmentation，在膨胀卷积使用过程中，会出现gridding effect的问题。

考虑以下三个实验。初始化一张 $31 \times 31$ 大小的网格图，每一个格子代表输入layer1上的一个像素，格子内的数字代表经过连续三次膨胀卷积得到layer4后，layer1中该像素总共被使用的次数。
在这里插入图片描述

连续使用三个膨胀卷积层，卷积核大小是3x3，膨胀因子全部设置为r=2。可以看到，layer4利用到了layer1中 $13 \times 13$ 个像素。但是layer4能够利用到layer1数据并不是连续的，在每个非零元素之间都是有一定间隔的。这就是Griding Effect。

也就是说，layer4并没有利用到layer1上所有的像素值，而只是利用到了其中的一部分，这就会导致丢失一部分细节信息，因此我们在使用膨胀卷积时应尽量避免出现Griding Effect。
在这里插入图片描述

连续使用三个膨胀卷积层，卷积核大小为3x3，膨胀因子分别设置为r=1、r=2、r=3。可以发现layer4上可以利用到layer1上 $13 \times 13$ 个像素，但是，利用到的数据之间是连续的。
在这里插入图片描述

连续使用三个膨胀卷积层，卷积核大小为3x3，膨胀因子全部设置为r=1。也就是连续使用三个普通卷积。可以看到在layer4上使用到了layer1中 $\times 7$ 个像素，像素之间是连续的。

由于卷积核大小相同，以上三种情况的参数数量是相同的。对比实验二和实验三，可以看到在使用膨胀卷积后，感受野增大了很多。
在这里插入图片描述

当需要连续使用多个膨胀卷积时，该如何设计膨胀系数？

假设我们要使用 $N$ 个膨胀卷积，卷积核大小为 $\times K$ ，膨胀系数分别对应 $[r_1,\ldots,r_i,\ldots,r_n]$ 。HDC的目标是通过一系列膨胀卷积之后，可以是底层特征层中的每一个像素点都能参与到计算中，而没有空洞。

定义第 $i$ 层两个非零值之间的最大距离：
$M_i = max[M_{i+1} - 2r_i, M_{i + 1}- 2(M_{i+1} - r_i), r_i]$

其中，最后一层有 $M_n = r_n$ 。

第一个设计原则就是： $M_2 \leq K$ 且 $r_1=1$ 。

例如：当 $K = 3$ ， $r = [1, 2, 5]$ 时，有 $M_3=r_3=5$ ， $M_2 = max[1,-1,2]=2$ ，有 $M_2<3$ 符合设计原则。

如下图，将所有像素值都使用到了。
在这里插入图片描述

当 $K = 3$ ， $r = [1, 2, 9]$ 时，有 $M_3=r_3=9$ ， $M_2 = max[5,-5,2]=5$ ，有 $M_2>3$ 不符合设计原则。
在这里插入图片描述
第二个设计原则就是：将膨胀因子r设置为锯齿结构，例如： [1, 2, 3, 1, 2, 3]

在这里插入图片描述
第一行是GT(Ground Truth)，即人为标注的分割效果。
第二行是没有按照HDC设计准则设计的分割效果。在预测结果中很多细节信息保留得不是很好。
第三行是使用了HDC设计准则得分割效果。对比第二行明显效果要好一些。

关注