转载自:https://blog.csdn.net/u011974639
DenseASPP
DenseASPP for Semantic Segmentation in Street Scenes
原文地址:DenseASPP
收录:CVPR2018(IEEE Conference on Computer Vision and Pattern Recognition)
代码:
简介:
将DeepLab系列中的ASPP和DenseNet中的密集连接相结合,构成了DenseASPP。新的模块具有更大的接收野和更密集的采样点。在CityScapes上获得了state-of-the-art的标签。
关于扩张卷积和DenseNet的相关文章解读:
Abstract
使用扩张卷积(Atrous Convolution)能够在不牺牲特征空间分辨率的同时扩大特征接收野,DeepLab系列工作结合多尺度信息和扩张卷积的特点提出了ASPP模块,将不同扩张率的扩张卷积特征结合到一起。但论文认为ASPP模块在尺度轴上特征分辨率还不够密集,获取的接收野还不够大,为此提出了DenseASPP(Densely connected ASPP),以更密集的方式连接一组扩张卷积,获得了更大的范围的扩张率,并且更加密集。在没有显著增加模型大小的情况下,DenseASPP在CityScapes上达到了State-of-the-art的表现。
Introduction
ASPP模块
扩张卷积用于解决特征图分辨率和接收野之间的矛盾,ASPP利用了多尺度信息进一步强化了分割效果。DeepLabv2中的ASPP模块如下:
但是在自动驾驶等领域有高分辨率的输入,ASPP为了获取足够大的感受野需要足够大的扩张率,但随着扩张率增加(d>24),扩张卷积的衰退衰减无效了(DeepLabv3中分析过这个问题)。
DenseNet
DenseNet中用密集连接获得更加的性能:
但因为密集连接,特征的通道数会急速上升,DenseNet中使用1×11×1的卷积用于降低通道数,限制了模型大小和计算量,同样的,在本文中也使用了多个1×11×1卷积用于降低参数,限制计算量。
DenseASPP
论文提出的DenseASPP用于解决街道场景的尺度挑战,DenseASPP包含了一个基础网络,后面接了一个多级的扩张卷积层,如下图所示:
使用密集连接的方式将每个扩张卷积输出结合到一起,论文使用了较合理的扩张率(d<24),通过一系列的扩张卷积组合级联,后面的神经元会获得越来越大的感受野,同步也避免了过大扩张率的卷积导致的卷积退化。
并且通过一系列的扩张卷积组合,特征图上的神经元对多个尺度的语义信息做编码,不同的中间特征图对来自不同尺度的信息做编码,DenseASPP的最终输出特征不仅覆盖了大范围的语义信息,并且还以非常密集的方式覆盖了做了信息编码。
总结,论文的主要贡献在于:
- DenseASPP能够生成覆盖非常大的范围的接收野特征
- DenseASPP能够以非常密集的方式生成的特征
需要注意的是,上述两个特性不能通过简单的并行或级联堆叠扩张卷积实现。
Related Work
深度卷积神经网络为了获取更大感受野的特征会使用下采样(或池化),但这会降低特征的分辨率,虽然获得特征的内部不变性但丢失了很多细节。DeepLab系列使用了扩张卷积获取更大感受野的同时保持图像的分辨率,并进一步提出了ASPP模块结合了多尺度信息,与此类似有PSPNet结合了不同尺度的池化信息。论文提出的DenseASPP结合了平行和级联的扩张卷积优点,在更大范围内生成更多尺度的特征。
DenseASPP是DenseNet的特例,可以看做是所有扩张率设置为1,这分享了DenseNet的优点,包括缓解了梯度消失的问题和大幅度减少参数。
Dense Atrous Spatial Pyramid Pooling
在城市交通道路环境中,存在不同尺度的目标物,这需要捕获不同尺度的特征,DeepLabv3给出了两个策略:
- backbone:级联的扩张卷积(这和DRN,HDC是一个思想),逐渐获取到大的感受野特征
- ASPP:同一输入上并行的扩张卷积组合,将输出级联到一起
论文使用HK,d(x)HK,d(x)表示一个扩张卷积,ASPP表示如下:
Denser feature pyramid and larger receptive field
DenseASPP的结构如下:
可以看到扩张卷积级联起来,并且扩张率逐渐的增加,前面的层扩张率较低,后面的层扩张率较大。这和DenseNet的连接非常相似,DenseASPP的最终输出是由多扩张率、多尺度的扩张卷积生成的特征组成。可以将DenseASPP用如下公式表示: