DenseASPP for Semantic Segmentation in Street Scenes-CSDN博客

本文链接：https://blog.csdn.net/Lucifer1217/article/details/105099741

本文提出了DenseASPP，一种用于街景语义分割的方法，旨在解决自动驾驶场景中的尺度变化挑战。DenseASPP通过密集连接的空洞卷积层生成多尺度特征，同时覆盖大范围的语义信息，提高了模型对不同尺度对象的理解能力。在Cityscapes数据集上，DenseASPP实现了最先进的性能，平均相交优于联合得分为80.6%。

摘要由CSDN通过智能技术生成

DenseASPP for Semantic Segmentation in Street Scenes

摘要
语义图像分割是自动驾驶中最基本的街景理解任务，高分辨率图像中的每个像素都被归为一组语义标签。与其他场景不同的是，自动驾驶场景中的对象呈现出非常大的尺度变化，这对高水平的特征表示提出了很大的挑战，因为必须对多尺度信息进行正确的编码。为了解决这个问题，引入了空洞卷积来产生具有更大感受野的特征，同时不牺牲空间分辨率。在空洞卷积的基础上，提出了空洞空间金字塔池化(atrous Spatial Pyramid Pooling, ASPP)[2]，利用不同的空洞率将多个空洞卷积的特征拼接成最终的特征表示。虽然ASPP能够生成多尺度特征，但我们认为尺度轴上的特征分辨率不足以满足自动驾驶场景。为此,我们提出了密集连接的空洞空间金字塔池化(DenseASPP),以密集连接的方式连接一组空洞卷积,这样做可以生成多尺度特性,不仅覆盖更大的范围,而且也密集的覆盖了这个范围,没有显著增加模型大小。我们在街景基准cityscap[4]上评估DenseASPP，并实现最先进的性能。

1.介绍
在全卷积网络(FCN)[16]下，语义图像分割取得了良好的效果，显著改善了特征表示。高级语义信息在分割网络中起着至关重要的作用。为了提取高级信息，FCN使用多个池化层来增加输出神经元的接受域大小。然而，增加池化层的数量会导致feature map的大小减小，这对将分割输出上采样回最初分辨率造成了严重的挑战。另一方面，如果我们从有着更大分辨率的早期的层输出分割，我们就不能利用更高层次的语义进行更好的推理。
为了解决较大的特征图分辨率和较大的感受野之间的矛盾，提出了空洞卷积。通过在内核掩码的适当位置插入0，可以以不同的速率扩展一个无速率的空洞卷积核。与传统的卷积算子相比，空洞卷积能够在不增加核参数数目的情况下获得更大的接受域大小。由空洞卷积产生的特征图可以与输入的大小相同，但是每个输出神经元拥有更大的接受域，因此可以编码更高层次的语义。
虽然空洞卷积解决了特征图分辨率与接受域大小之间的矛盾，但是单纯从由空洞卷积得来的特征图生成语义掩码的方法仍然存在一定的局限性。具体来说，由空洞卷积得来的特征图中的所有神经元都具有相同的接受域大小，这意味着语义掩码的生成过程只利用了单一尺度上的特征。然而，经验[24,2,3]表明，多尺度信息有助于解决模糊情况，并产生更稳健的分类结果。为此，ASPP[2,3]提出将不同空洞率下的空洞卷积生成的特征图串联起来，使得输出特征图中的神经元包含多个接受域大小，对多尺度信息进行编码，最终提高性能。
然而，ASPP仍然受到另一个限制。具体来说，自主驾驶场景下的输入图像具有较高的分辨率，这就要求神经元具有更大的接受域。为了在ASPP中获得足够大的接受域，必须采用足够大的扩张比。然而，随着空洞率的增加(如d > 24)，空洞卷积变得越来越无效，逐渐失去建模能力[3]。因此，设计一个能够编码多尺度信息，同时又能获得足够大的接收域的网络结构是非常重要的。

在这里插入图片描述图1所示。说明具有挑战性的规模变化的街景从城市风景[4]。在第一个范例图像中，由于距离照相机的距离，相同的类别如人物在尺度上有很大的不同。第二个范例图像展