如何理解空洞卷积(dilated convolution)

论文:Multi-scale context aggregation with dilated convolutions

简单讨论下dilated conv,中文可以叫做空洞卷积或者扩张卷积。首先介绍一下dilated conv诞生背景[4],再解释dilated conv操作本身,以及应用。

首先是诞生背景,在图像分割领域,图像输入到CNN(典型的网络比如FCN[3])中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测(upsampling一般采用deconv反卷积操作,deconv可参见知乎答案如何理解深度学习中的deconvolution networks?),之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中,肯定有一些信息损失掉了,那么能不能设计一种新的操作,不通过pooling也能有较大的感受野看到更多的信息呢?答案就是dilated conv。

下面看一下dilated conv原始论文[4]中的示意图:

<img src="https://pic2.zhimg.com/50/v2-b448e1e8b5bbf7ace5f14c6c4d44c44e_hd.jpg" data-rawwidth="1269" data-rawheight="453" class="origin_image zh-lightbox-thumb" width="1269" data-original="https://pic2.zhimg.com/v2-b448e1e8b5bbf7ace5f14c6c4d44c44e_r.jpg">

(a)图对应3x3的1-dilated conv,和普通的卷积操作一样,(b)图对应3x3的2-dilated conv,实际的卷积kernel size还是3x3,但是空洞为1,也就是对于一个7x7的图像patch,只有9个红色的点和3x3的kernel发生卷积操作,其余的点略过。也可以理解为kernel的size为7x7,但是只有图中的9个点的权重不为0,其余都为0。 可以看到虽然kernel size只有3x3,但是这个卷积的感受野已经增大到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话,那么每个红点就是1-dilated的卷积输出,所以感受野为3x3,所以1-dilated和2-dilated合起来就能达到7x7的conv),(c)图是4-dilated conv操作,同理跟在两个1-dilated和2-dilated conv的后面,能达到15x15的感受野。对比传统的conv操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是和层数layer成线性关系,而dilated conv的感受野是指数级的增长。

dilated的好处是不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中,都能很好的应用dilated conv,比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。简单贴下ByteNet和WaveNet用到的dilated conv结构,可以更形象的了解dilated conv本身。

ByteNet

<img src="https://pic3.zhimg.com/50/v2-036913d7176af92daffcd60698751397_hd.jpg" data-rawwidth="869" data-rawheight="720" class="origin_image zh-lightbox-thumb" width="869" data-original="https://pic3.zhimg.com/v2-036913d7176af92daffcd60698751397_r.jpg">

WaveNet

<img src="https://pic3.zhimg.com/50/v2-e366fd287082211f1ac4a0fbbf35e3a1_hd.jpg" data-rawwidth="1065" data-rawheight="359" class="origin_image zh-lightbox-thumb" width="1065" data-original="https://pic3.zhimg.com/v2-e366fd287082211f1ac4a0fbbf35e3a1_r.jpg">

下面再阐述下deconv和dilated conv的区别:

deconv的具体解释可参见如何理解深度学习中的deconvolution networks?,deconv的其中一个用途是做upsampling,即增大图像尺寸。而dilated conv并不是做upsampling,而是增大感受野。

可以形象的做个解释:

对于标准的k*k卷积操作,stride为s,分三种情况:

(1) s>1,即卷积的同时做了downsampling,卷积后图像尺寸减小;

(2) s=1,普通的步长为1的卷积,比如在tensorflow中设置padding=SAME的话,卷积的图像输入和输出有相同的尺寸大小;

(3) 0<s<1,fractionally strided convolution,相当于对图像做upsampling。比如s=0.5时,意味着在图像每个像素之间padding一个空白的像素后,stride改为1做卷积,得到的feature map尺寸增大一倍。

而dilated conv不是在像素之间padding空白的像素,而是在已有的像素上,skip掉一些像素,或者输入不变,对conv的kernel参数中插一些0的weight,达到一次卷积看到的空间范围变大的目的。

当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小。大家可以从以上理解到deconv,dilated conv,pooling/downsampling,upsampling之间的联系与区别,欢迎留言沟通交流。


[1] Kalchbrenner, Nal, et al. "Neural machine translation in linear time." arXiv preprint arXiv:1610.10099 (2016).

[2] Oord, Aaron van den, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).

[3] Long J, Shelhamer E, Darrell T, et al. Fully convolutional networks for semantic segmentation[C]. Computer Vision and Pattern Recognition, 2015.

[4] Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).

作者:谭旭

链接:https://www.zhihu.com/question/54149221/answer/192025860


####################################################################################

Dilated/Atrous Convolution 或者是 Convolution with holes 从字面上就很好理解,是在标准的 convolution map 里注入空洞,以此来增加 reception field。相比原来的正常convolution,dilated convolution 多了一个 hyper-parameter 称之为 dilation rate 指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate 1)。

一个简单的例子:

&amp;lt;img data-rawheight=&quot;381&quot; src=&quot;https://pic3.zhimg.com/50/v2-d552433faa8363df84c53b905443a556_hd.gif&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;395&quot; data-thumbnail=&quot;https://i-blog.csdnimg.cn/blog_migrate/da2c469ccdac85eaaad7ab7a795d698b.jpeg&quot; class=&quot;content_image&quot; width=&quot;395&quot;&amp;gt;
Standard Convolution with a 3 x 3 kernel (and padding)
&amp;lt;img data-rawheight=&quot;381&quot; src=&quot;https://i-blog.csdnimg.cn/blog_migrate/61cc8c557a0ae78bf838e8793e45d167.gif&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;395&quot; data-thumbnail=&quot;https://pic1.zhimg.com/50/v2-4959201e816888c6648f2e78cccfd253_hd.jpg&quot; class=&quot;content_image&quot; width=&quot;395&quot;&amp;gt;
Dilated Convolution with a 3 x 3 kernel and dilation rate 2

不过光理解他的工作原理还是远远不够的,要充分理解这个概念我们得重新审视卷积本身,并去了解他背后的设计直觉。以下主要讨论 dilated convolution 在语义分割 (semantic segmentation) 的应用。

重新思考卷积: Rethinking Convolution

在赢得其中一届ImageNet比赛里VGG网络的文章中,他最大的贡献并不是VGG网络本身,而是他对于卷积叠加的一个巧妙观察。

This (stack of three 3 × 3 conv layers) can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters (with non-linearity injected in between).

这里意思是 7 x 7 的卷积层可以看做 3 个 3 x 3 的卷积层的叠加后的正则。而这样的设计不仅可以大幅度的减少参数,其本身带有正则性质的 convolution map 能够更容易学一个 generlisable, expressive feature space。这也是现在绝大部分基于卷积的深层网络都在用小卷积核的原因。

&amp;lt;img data-rawheight=&quot;618&quot; src=&quot;https://pic1.zhimg.com/50/v2-ee6f0084ca22aa8dc3138462ee4c24df_hd.jpg&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;1422&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1422&quot; data-original=&quot;https://pic1.zhimg.com/v2-ee6f0084ca22aa8dc3138462ee4c24df_r.jpg&quot;&amp;gt;

然而 Deep CNN 对于其他任务还有一些致命性的缺陷。较为著名的是 up-sampling 和 pooling layer 的设计。这个在 Hinton 的演讲里也一直提到过。

主要问题有:

  1. Up-sampling / pooling layer (e.g. bilinear interpolation) is deterministic. (a.k.a. not learnable)
  2. 内部数据结构丢失;空间层级化信息丢失。
  3. 小物体信息无法重建 (假设有四个pooling layer 则 任何小于 2^4 = 16 pixel 的物体信息将理论上无法重建。)

在这样问题的存在下,语义分割问题一直处在瓶颈期无法再明显提高精度, 而 dilated convolution 的设计就良好的避免了这些问题。

空洞卷积的拯救之路:Dilated Convolution to the Rescue

题主提到的这篇文章 MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS 可能(?) 是第一篇尝试用 dilated convolution 做语义分割的文章。后续图森组和 Google Brain 都对于 dilated convolution 有着更细节的讨论,推荐阅读:Understanding Convolution for Semantic Segmentation Rethinking Atrous Convolution for Semantic Image Segmentation

对于 dilated convolution, 我们已经可以发现他的优点,即内部数据结构的保留和避免使用 down-sampling 这样的特性。但是完全基于 dilated convolution 的结构如何设计则是一个新的问题。

潜在问题 1:The Gridding Effect

假设我们仅仅多次叠加 dilation rate 2 的 3 x 3 kernel 的话,则会出现这个问题:

&amp;lt;img data-rawheight=&quot;370&quot; src=&quot;https://pic1.zhimg.com/50/v2-478a6b82e1508a147712af63d6472d9a_hd.jpg&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;1154&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1154&quot; data-original=&quot;https://pic1.zhimg.com/v2-478a6b82e1508a147712af63d6472d9a_r.jpg&quot;&amp;gt;

我们发现我们的 kernel 并不连续,也就是并不是所有的 pixel 都用来计算了,因此这里将信息看做 checker-board 的方式会损失信息的连续性。这对 pixel-level dense prediction 的任务来说是致命的。

潜在问题 2:Long-ranged information might be not relevant.

我们从 dilated convolution 的设计背景来看就能推测出这样的设计是用来获取 long-ranged information。然而光采用大 dilation rate 的信息或许只对一些大物体分割有效果,而对小物体来说可能则有弊无利了。如何同时处理不同大小的物体的关系,则是设计好 dilated convolution 网络的关键。

通向标准化设计:Hybrid Dilated Convolution (HDC)

对于上个 section 里提到的几个问题,图森组的文章对其提出了较好的解决的方法。他们设计了一个称之为 HDC 的设计结构。

第一个特性是,叠加卷积的 dilation rate 不能有大于1的公约数。比如 [2, 4, 6] 则不是一个好的三层卷积,依然会出现 gridding effect。

第二个特性是,我们将 dilation rate 设计成 锯齿状结构,例如 [1, 2, 5, 1, 2, 5] 循环结构。

第三个特性是,我们需要满足一下这个式子: M_i=\max[M_{i+1}-2r_i,M_{i+1}-2(M_{i+1}-r_i),r_i]

其中 r_i 是 i 层的 dilation rate 而 M_i 是指在 i 层的最大dilation rate,那么假设总共有n层的话,默认 M_n=r_n 。假设我们应用于 kernel 为 k x k 的话,我们的目标则是 M_2 \leq k ,这样我们至少可以用 dilation rate 1 即 standard convolution 的方式来覆盖掉所有洞。

一个简单的例子: dilation rate [1, 2, 5] with 3 x 3 kernel (可行的方案)

&amp;lt;img data-rawheight=&quot;612&quot; src=&quot;https://pic1.zhimg.com/50/v2-3e1055241ad089fd5da18463903616cc_hd.jpg&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;1766&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1766&quot; data-original=&quot;https://pic1.zhimg.com/v2-3e1055241ad089fd5da18463903616cc_r.jpg&quot;&amp;gt;

而这样的锯齿状本身的性质就比较好的来同时满足小物体大物体的分割要求(小 dilation rate 来关心近距离信息,大 dilation rate 来关心远距离信息)。

这样我们的卷积依然是连续的也就依然能满足VGG组观察的结论,大卷积是由小卷积的 regularisation 的 叠加。

以下的对比实验可以明显看出,一个良好设计的 dilated convolution 网络能够有效避免 gridding effect.

&amp;lt;img data-rawheight=&quot;688&quot; src=&quot;https://pic4.zhimg.com/50/v2-b2b6f12a4c3d244c4bc7eb33814a1f0d_hd.jpg&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;1448&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1448&quot; data-original=&quot;https://pic4.zhimg.com/v2-b2b6f12a4c3d244c4bc7eb33814a1f0d_r.jpg&quot;&amp;gt;

多尺度分割的另类解:Atrous Spatial Pyramid Pooling (ASPP)

在处理多尺度物体分割时,我们通常会有以下几种方式来操作:

&amp;lt;img data-rawheight=&quot;440&quot; src=&quot;https://pic4.zhimg.com/50/v2-0510889deee92f6290b5a43b6058346d_hd.jpg&quot; data-size=&quot;normal&quot; data-rawwidth=&quot;1664&quot; class=&quot;origin_image zh-lightbox-thumb&quot; width=&quot;1664&quot; data-original=&quot;https://pic4.zhimg.com/v2-0510889deee92f6290b5a43b6058346d_r.jpg&quot;&amp;gt;

然仅仅(在一个卷积分支网络下)使用 dilated convolution 去抓取多尺度物体是一个不正统的方法。比方说,我们用一个 HDC 的方法来获取一个大(近)车辆的信息,然而对于一个小(远)车辆的信息都不再受用。假设我们再去用小 dilated convolution 的方法重新获取小车辆的信息,则这么做非常的冗余。

基于港中文和商汤组的 PSPNet 里的 Pooling module (其网络同样获得当年的SOTA结果),ASPP 则在网络 decoder 上对于不同尺度上用不同大小的 dilation rate 来抓去多尺度信息,每个尺度则为一个独立的分支,在网络最后把他合并起来再接一个卷积层输出预测 label。这样的设计则有效避免了在 encoder 上冗余的信息的获取,直接关注与物体之间之内的相关性。

总结

Dilated Convolution 个人认为想法简单,直接且优雅,并取得了相当不错的效果提升。他起源于语义分割,大部分文章也用于语义分割,具体能否对其他应用有价值姑且还不知道,但确实是一个不错的探究方向。有另外的答主提到WaveNet, ByteNet 也用到了 dilated convolution 确实是一个很有趣的发现,因为本身 sequence-to-sequence learning 也是一个需要关注多尺度关系的问题。则在 sequence-to-sequence learning 如何实现,如何设计,跟分割或其他应用的关联是我们可以重新需要考虑的问题。

作者:刘诗昆

链接:https://www.zhihu.com/question/54149221/answer/323880412


<think>好的,我现在需要详细分析用户的问题,即“可变形卷积与空洞卷积的区别”。用户已经提供了相关的站内引用资料,我需要结合这些资料以及之前的对话内容来构建一个准确且全面的回答。 首先,回顾用户之前的提问和我的回答,可变形卷积(Deformable Convolution)主要强调通过动态调整卷积核的采样位置来适应物体的几何形变,而空洞卷积Dilated Convolution)则是通过扩大卷积核的感受野而不增加参数或计算量。用户现在希望明确两者的区别,尤其是在应用场景、工作原理和优缺点方面。 接下来,我需要查阅用户提供的引用内容。引用[1]和[3]详细介绍了空洞卷积的背景和原理,指出它通过引入间隔(dilation rate)来扩大感受野,解决传统卷积在语义分割等任务中因下采样导致的空间分辨率损失问题。引用[2]提到空洞卷积在处理不同大小物体时的挑战,如大dilation rate可能对小物体不利,需要设计如Hybrid Dilated Convolution来平衡。引用[4]则提到Dilated Block在实时语义分割中的应用,通过不同扩张率的分支提取多尺度特征。 结合这些信息,空洞卷积的核心在于控制感受野的大小,而可变形卷积的核心在于灵活调整采样位置。两者的设计目标不同:空洞卷积解决的是感受野扩展的问题,适用于需要捕捉长距离信息的任务;可变形卷积则解决几何形变问题,适用于目标检测和分割中物体形状变化大的情况。 接下来需要考虑两者的实现方式。空洞卷积通过在卷积核元素之间插入零来扩大间隔,数学上不增加参数,但可能引入网格效应(gridding issue),影响局部信息捕获。可变形卷积则通过额外的卷积层预测偏移量,动态调整采样点位置,增加了参数和计算量,但能更灵活地适应物体形变。 应用场景方面,空洞卷积常见于语义分割(如DeepLab系列)和需要多尺度信息的任务,而可变形卷积在目标检测(如Deformable R-CNN)和复杂形变处理的场景中表现更好。两者的优缺点也需要对比:空洞计算效率高但可能丢失细节,可变形更灵活但训练复杂。 最后,需要确保回答结构清晰,分点对比,并引用用户提供的资料。例如,在提到空洞卷积的多尺度处理时,引用[2]和[4]中的Hybrid Dilated Convolution和D Block结构。同时,结合之前的回答,强调可变形卷积的动态特性与空洞卷积的静态扩张之间的区别。 总结来说,回答需要涵盖工作原理、设计目标、实现机制、应用场景及优缺点对比,并适当引用用户提供的文献支持论点,确保信息准确且符合用户需求。</think>### 可变形卷积 vs 空洞卷积Dilated Convolution)的核心区别 #### 一、**设计目标不同** 1. **空洞卷积** - **核心目标**:扩大卷积核的**感受野**(Receptive Field),避免传统下采样(池化、步长卷积)导致的空间分辨率损失[^1][^3]。 - **适用场景**:语义分割(如DeepLab系列)、需要捕捉长距离依赖的任务(如视频时序建模)。 - **关键特性**:通过**固定间隔(dilation rate)** 在卷积核采样点之间插入空白,数学表达为: $$y(p) = \sum_{k=1}^K w_k \cdot x\left(p + r \cdot p_k\right)$$ 其中$r$为扩张率(dilation rate),$p_k$为预设的规则采样点[^3]。 2. **可变形卷积** - **核心目标**:增强卷积核的**几何形变建模能力**,适应目标物体的非刚性形变(如弯曲、旋转)[^3]。 - **适用场景**:目标检测(如Deformable R-CNN)、复杂形变的图像分割。 - **关键特性**:通过**动态偏移量**调整采样位置,数学表达为: $$y(p) = \sum_{k=1}^K w_k \cdot x\left(p + p_k + \Delta p_k\right)$$ 其中$\Delta p_k$为可学习的偏移量[^3]。 --- #### 二、**实现机制对比** | 特性 | 空洞卷积 | 可变形卷积 | |---------------------|----------------------------------|------------------------------------| | **采样点位置** | 固定间隔(如$r=2$时采样点间隔为2像素) | 动态偏移(由网络学习偏移量$\Delta p_k$) | | **参数增加量** | 无额外参数(仅调整采样间隔) | 需额外卷积层生成偏移量(如$3\times3$卷积核需18个偏移通道) | | **感受野控制** | 显式控制(通过$r$值) | 隐式学习(偏移量可能突破预设感受野) | | **计算复杂度** | 与传统卷积相近 | 增加约20%-30%计算量(偏移量生成+双线性插值) | --- #### 三、**优势与局限性** 1. **空洞卷积的优势** - 保持特征图分辨率,避免上采样误差(语义分割关键需求)[^3]; - 通过**多尺度空洞卷积堆叠**(如ASPP模块)捕获多尺度上下文信息[^2]; - 计算效率高,无额外参数。 **局限性**: - 大$r$值可能导致**网格效应(Gridding Issue)**,丢失局部细节[^2]; - 固定采样模式无法适应物体形变。 2. **可变形卷积的优势** - 自适应调整采样位置,显著提升对几何形变的鲁棒性; - 可突破预设感受野限制,捕捉更灵活的上下文关系。 **局限性**: - 偏移量学习可能不稳定(需配合正则化或渐进训练策略); - 实时性较差,对硬件加速要求高。 --- #### 四、**典型应用对比** | 任务类型 | 空洞卷积典型应用 | 可变形卷积典型应用 | |---------------|------------------------------------|------------------------------------| | **语义分割** | DeepLab系列(ASPP模块)[^1] | 复杂场景分割(如遮挡、形变物体) | | **目标检测** | 少用于检测(感受野扩展有限) | Deformable R-CNN(ROI对齐改进)[^3] | | **视频分析** | 时序建模(扩大时间维度感受野) | 运动形变建模(如光流估计) | --- #### 五、**联合使用案例** 部分先进模型会结合两者优势: - **Hybrid Dilated Convolution**[^2]:混合不同$r$值的空洞卷积,平衡多尺度信息; - **Deformable Dilated Convolution**:在空洞卷积基础上引入偏移量,同时扩展感受野并适应形变。 --- ### 关键区别总结 | | 空洞卷积 | 可变形卷积 | |----------------|----------------------------------|------------------------------------| | **核心改进** | 感受野扩展 | 几何形变建模 | | **参数动态性** | 静态(预定义$r$值) | 动态(可学习偏移量) | | **硬件友好度** | 高(规则计算) | 中(依赖双线性插值) | | **任务侧重** | 密集预测(分割) | 形变敏感任务(检测、姿态估计) | --- ### 相关问题 1. 如何设计混合空洞卷积(Hybrid Dilated Convolution)避免网格效应? 2. 可变形卷积的偏移量学习如何避免过拟合? 3. 空洞卷积在实时语义分割中的优化方法(参考[^4]的D Block设计)?
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值