Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation

本文提出了一种新的端到端的深度编码-解码器结构,用于单通道语义分割,采用级联架构和特征级别的远程跳跃连接。通过密集的解码器短路连接,允许解码器块使用所有先前级别的语义特征,实现多级融合,提高了精度。这种方法在多个数据集上表现出优越性能,且不需要多尺度平均。
摘要由CSDN通过智能技术生成

Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation
摘要
我们提出了一种新颖的端到端可训练的、深度的、单通道语义分割的编码器译码器结构。我们的方法基于级联架构,具有特征级别的远程跳跃连接。该编码器融合了ResNeXt的残差构建块的结构,并采用重复构建块的策略,该构建块聚合了具有相同拓扑结构的一组转换。该译码器具有新颖的结构,包括(i)捕获上下文信息,(ii)生成语义特征,(iii)实现不同输出分辨率之间的融合。至关重要的是,我们引入了密集的解码器短路链接,允许解码器块使用来自所有先前解码器级别的语义特征映射,即来自所有更高级别的特征映射。密集的解码器连接允许从一个解码器块到另一个解码器块的有效信息传播,以及显著提高精度的多级特征融合。重要的是,这些连接允许我们的方法在几个具有挑战性的数据集上获得最先进的性能,而不需要对以前的工作进行耗时的多尺度平均。

  1. 介绍
    语义分割是为图像中的每个像素分配一个类标签的过程,在机器人视觉、自主驾驶、定位和导航等领域都有广泛的应用。
    最近关于语义分割的研究表明,将最先进的基于深度卷积神经网络(CNN)的图像分类器用于语义分割,可以显著提高准确性[5,36]。一个突出的方法涉及全卷积网络(FCN)[36],其中全连接层被转换成卷积层。我们注意到,这种方法的关键是使用skip架构,它将来自深度粗糙层的语义信息与来自浅层精细层的外观信息结合起来。
    最近的技术已经将图像金字塔合并到多尺度推断和评估中。所有这些技术都采用一个输入图像,并将其扩展到多个分辨率,以构建一组级联图像,然后通过(神经网络)处理通道对这些图像进行通道传输(通常是独立的)。这种技术为许多应用程序提供了有用的特性,如降噪或图像处理。它作为一种提取多尺度语义分数的图像表示方法被广泛应用于语义分割中,然后对所有尺度的语义分数进行平均,得到最终结果。然而,对许多尺度分别运行推理步骤会显著增加处理时间,因此对于许多实际应用程序来说,这种方法是不切实际的。更重要的是,多尺度金字塔显著增加了内存需求,使得使用单一的现代GPU来训练一个端到端的网络几乎不可能。这说明多尺度图像金字塔仅用于推理步骤,往往使整个方法工程化程度高。
    在此基础上,本文设计了一种新的端到端可训练的深度编码-解码器体系结构,旨在消除对多尺度、多通道语义分割的需求,并在单一尺度下获得可比较或更好的结果。我们的方法基于级联架构,具有特征级别的远程跳过连接。该编码器融合了ResNeXt的残差构建块的结构,并采用重复构建块的策略,该构建块聚合了具有相同拓扑结构的一组转换。该译码器采用了一种新颖的分块结构,可以捕获上下文信息,生成语义特征,实现不同分辨率之间的融合。至关重要的是,我们建议使用密集的解码器短路连接,以允许解码器的块使用之前所有解码器的块的语义特征映射(即来自所有更高级别的特征映射),并纠正之前解码器的块引入的任何潜在错误。密集解码器的短路连接允许有效的信息从解码器的一个块传播到另一个块,并允许多级特征融合,显著提高了精度。
    我们进行了广泛的评估,涉及几个常用的语义分割数据集:Pascal VOC 2012 [13]&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值