空洞卷积，

最新推荐文章于 2024-03-21 13:53:02 发布

~西贝贝~

最新推荐文章于 2024-03-21 13:53:02 发布

阅读量354

点赞数

原文链接：https://blog.csdn.net/qq_35290785/article/details/94769474

版权

空洞卷积，扩张卷积，膨胀卷积，多孔卷积，带孔卷积，dilated convolution

Dilation 卷积，也被称为：空洞卷积、膨胀卷积。

一、一般的卷积操作：

首先，可以通过动态图，理解正常卷积的过程：

如上图，可以看到卷积操作。

对于CNN结构，通常包括如下部分：

输入层（input layer）--- 卷积计算层（CONV）--- 激励层（RELU） --- 池化层（Pooling） --- 全连接层（FC）

通常利用卷积来实现数据的特征提取。卷积层还有一个权值共享的原则：用一句话表达就是每个神经元只关注一个特征。

当然卷积完经过激励层做一个非线性映射，输出后就到Pooling layer了。

池化层的作用：

(1)压缩数据和参数的量，减小过拟合。

(2)增大感受野。

主要两种方法：Max Pooling 和 Average Pooling

对于有些算法，池化完还需要upsampling获得原始数的尺寸进行后续操作。由于这种通过卷积操作存在内部数据丢失的问题，存在信息损失，有人提出了dilated conv算法，即不通过池化获得较大的视野，并减小信息损失。

二、膨胀卷积

如上图，膨胀卷积的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者自然语言处理中需要较长的sequence信息依赖的问题中，都能很好的应用。

在tensorflow中代码为：

1	`tf.nn.atrous_conv2d(value,filters,rate,padding,name=None）`

　　value：输入的卷积图像，[batch, height, width, channels]。

　 filters：卷积核，[filter_height, filter_width, channels, out_channels]，通常NLP相关height设为1。

　　rate：正常的卷积通常会有stride，即卷积核滑动的步长，而膨胀卷积通过定义卷积和当中穿插的rate-1个0的个数，实现对原始数据采样间隔变大。

　　padding：”SAME”：补零； ”VALID”：丢弃多余的

引子：

感受野（receptive field）：CNN中，某一层输出结果中一个元素所对应的输入层的区域大小.。越大的感受野包含越多的上下文关系
Dilated/Atrous Convolution(中文叫做空洞卷积或者膨胀卷积) 或者是 Convolution with holes 从字面上就很好理解，是在标准的 convolution map 里注入空洞，以此来增加 reception field。相比原来的正常convolution，dilated convolution 多了一个 hyper-parameter 称之为 dilation rate 指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate 1)。
卷积核的dialate属性定义为卷积核的元素间距，如 dialate=2 是每隔一个像素位置应用一个卷积元素，dialate=1就是普通的无孔卷积。

原理：

扩张卷积与普通的卷积相比，除了卷积核的大小以外，还有一个扩张率(dilation rate)参数，主要用来表示扩张的大小。扩张卷积与普通卷积的相同点在于，卷积核的大小是一样的，在神经网络中即参数数量不变，区别在于扩张卷积具有更大的感受野。感受野是卷积核在图像上看到的大小，例如3×3卷积核的感受野大小为9。

(a) 普通卷积，1-dilated convolution，卷积核的感受野为3×3=93×3=9。
(b) 扩张卷积，2-dilated convolution，卷积核的感受野为7×7=497×7=49。
(c) 扩张卷积，4-dilated convolution，卷积核的感受野为15×15=22515×15=225。

扩展卷积在保持参数个数不变的情况下增大了卷积核的感受野，同时它可以保证输出的特征映射（feature map）的大小保持不变。一个扩张率为2的3×3卷积核，感受野与5×5的卷积核相同，但参数数量仅为9个，是5×5卷积参数数量的36%。

dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中，都能很好的应用dilated conv

传统卷积：空洞卷积

增加感受野：

Deep CNN 对于其他任务还有一些致命性的缺陷。较为著名的是 up-sampling 和 pooling layer 的设计。
主要问题有：

Up-sampling / pooling layer (e.g. bilinear interpolation) is deterministic. (参数不可学习)
内部数据结构丢失；空间层级化信息丢失。
小物体信息无法重建 (假设有四个pooling layer 则任何小于 2^4 = 16 pixel 的物体信息将理论上无法重建。)
在这样问题的存在下，语义分割问题一直处在瓶颈期无法再明显提高精度，而 dilated convolution 的设计就良好的避免了这些问题。

在图像分割领域，图像输入到CNN（典型的网络比如FCN[3]）中，FCN先像传统的CNN那样对图像做卷积再pooling，降低图像尺寸的同时增大感受野，但是由于图像分割预测是pixel-wise的输出，所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测（upsampling一般采用deconv反卷积操作，deconv可参见知乎答案如何理解深度学习中的deconvolution networks？），之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键，一个是pooling减小图像尺寸增大感受野，另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中，肯定有一些信息损失掉了，那么能不能设计一种新的操作，不通过pooling也能有较大的感受野看到更多的信息呢？答案就是dilated conv。

下面看一下dilated conv原始论文[4]中的示意图：

dilated conv

(a)图对应3x3的1-dilated conv，和普通的卷积操作一样，(b)图对应3x3的2-dilated conv，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7（如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个红点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv）,(c)图是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1=7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。

空洞卷积存在的问题

潜在问题 1：The Gridding Effect

假设我们仅仅多次叠加 dilation rate 2 的 3 x 3 kernel 的话，则会出现这个问题：

我们发现我们的 kernel 并不连续，也就是并不是所有的 pixel 都用来计算了，因此这里将信息看做 checker-board 的方式会损失信息的连续性。这对 pixel-level dense prediction 的任务来说是致命的。

潜在问题 2：Long-ranged information might be not relevant.

我们从 dilated convolution 的设计背景来看就能推测出这样的设计是用来获取 long-ranged information。然而光采用大 dilation rate 的信息或许只对一些大物体分割有效果，而对小物体来说可能则有弊无利了。如何同时处理不同大小的物体的关系，则是设计好 dilated convolution 网络的关键。

通向标准化设计：Hybrid Dilated Convolution (HDC)

对于上个 section 里提到的几个问题，图森组的文章对其提出了较好的解决的方法。他们设计了一个称之为 HDC 的设计结构。

第一个特性是，叠加卷积的 dilation rate 不能有大于1的公约数。比如 [2, 4, 6] 则不是一个好的三层卷积，依然会出现 gridding effect。
第二个特性是，我们将 dilation rate 设计成锯齿状结构，例如 [1, 2, 5, 1, 2, 5] 循环结构。
第三个特性是，我们需要满足一下这个式子：