EfficientPS论文翻译-------第一部分

最新推荐文章于 2024-11-02 22:33:27 发布

gz7seven

最新推荐文章于 2024-11-02 22:33:27 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉自动驾驶

本文链接：https://blog.csdn.net/guzhao9901/article/details/106428599

版权

深度学习专栏收录该内容

43 篇文章

订阅专栏

EfficientPS论文翻译-------第一部分

摘要自主机器人工作的场景对其胜任工作至关重要。这种场景理解需要识别交通参与者的实例以及通用的场景语义，而这些语义可以通过全景分割任务有效地解决。在本文中，我们介绍了高效的全景分割(Efficient entps)架构，它由一个共享主干组成，它高效地编码和融合了语义丰富的多尺度特征。我们加入了一个新的语义头，将精细和上下文特征连贯地聚合在一起，并加入了一个新的变种Mask R-CNN作为实例头。我们还提出了一种新的全景融合模块，该模块集成了我们的efficient entps架构的两个头的输出日志，从而产生最终的全景分割输出。此外，我们介绍了KITTI全景分割数据集，其中包含了广泛挑战的KITTI基准的全景注释。在Cityscapes、KITTI、mapvistas和Indian Driving Dataset上的广泛评估表明，我们提出的架构始终在所有这四个基准上设置新的最先进的，同时是迄今为止最高效和快速的全景分割架构。

1 引言

整体场景理解在实现智能行为中起着关键作用。人类从小就能毫不费力地理解复杂的视觉场景，这为学习更高级的能力奠定了基础(Bremner和Slater, 2008)。类似地，诸如机器人这样的智能系统应该有能力在基本像素级和非敏感对象实例级连贯地理解视觉场景。这使他们能够感知和推理环境的整体，有利于互动。这种建模能力是一个至关重要的推动者，它可以彻底改变许多不同的应用，包括自动驾驶、监视和增强现实。

一个场景的组成部分通常可以分为“Stuff”和“thing”对象。“Stuff”可以被定义为不可数和无定形的区域，如天空、道路和人行道，而“thing”则是可计数的物体，如行人、汽车和乘客。“stuff”类的分类主要是通过语义分类任务来实现的，而“thing”类的分类则是通过实例分类任务来实现的。近年来，这两个任务都获得了大量的关注。深度学习研究进展进一步提高了这些任务的性能到新的高度。然而，最先进的深度学习方法仍然主要独立地处理这些任务，尽管它们在像素级理解场景的目标在它们之间建立了内在的联系。更令人惊讶的是，他们也从根本上扩展到基于提案的方法的不同方向，例如语义分割和完全卷积网络，尽管一些早期的方法已经证明了将两者结合的潜在好处。

最近，Kirillov等人(2019)重新提出了共同解决这些任务的需要，他们创造了术语panoptical segmentation，并引入了panoptical质量度量进行联合评价。这个任务的目标是联合预测“stuff”和“thing”类，本质上统一了语义和实例分割的独立任务。更具体地说，如果一个像素属于“stuff”类，全景分割网络会从“stuff”类中分配一个类标签，而如果像素属于“thing”类，网络会预测它所对应的“thing”类以及对象类的实例。Kirillov等人(2019)也提出了一种全景分割的基线方法，在后期处理阶段，启发式地结合来自单个最先进的实例和语义分割网络的预测。然而，这种不相交的方法有几个缺点，包括计算开销大、学习冗余和每个网络的期望之间的差异。尽管最近的方法已经取得了重大进展，可以使用共享组件自顶向下或顺序使用自底向上的方式来处理此任务，但是与特定于任务的单个网络相比，这些方法仍然面临计算效率、运行时慢和结果低于标准值等方面的挑战。

本文提出了一种新的EfficientPS结构，为上述问题提供了有效的解决方案。该架构由我们新的具有移动倒瓶颈单元的共享主干和我们提出的双向特征金字塔网络(FPN)组成，接着是特定于任务的实例和带有可分离卷积的语义分割头，其输出合并在我们的无参数全景融合模块中。以端到端方式联合优化整个网络，得到最终的全景分割输出。图1显示了我们的网络中信息流的概述，以及中间预测和最终输出。与现有方法相比，我们的设计目标是获得更好的性能，同时具有更快的速度和更高的计算效率。
在这里插入图片描述
图1 我们提出的用于全景分割的EfficientPS体系结构概述。我们的模型预测了四个输出：从语义头开始的语义预测，以及从实例头开始的类，边界框和掩码预测。然后，将所有上述预测合并到全景融合模块中，以产生最终的全景分割输出。

目前，表现最好的自上而下的全景分割模型(Porzi等，2019;熊等，2019;Li et al .， 2018a)主要采用ResNet-101或ResNeXt-101，以特征金字塔网络为主干网络结构。尽管这些主干网络具有很高的表征能力，但它们消耗了大量的参数。为了达到更好的平衡，我们提出了一个新的主干网络，由一个改进的efficient entnet 架构组成，采用复合缩放来均匀地缩放网络的所有维度，加上我们的新型双向FPN。我们提出的主干网络比其流行的主干网络具有更高的效率和效用。此外，我们还发现，由于信息的单向流动，标准FPN结构在聚合多尺度特征时存在一定的局限性。虽然还有其他一些扩展通过在FPN的输出中添加自底向上的路径扩展来缓解这个问题，但是它们的速度相当慢。因此，我们提出了一种新颖的双向FPN，它支持信息的双向流动，这大大提高了“thing”类的整体质量，同时在运行时保持可比较性。

现在，我们的双向FPN的输出具有多个比例，当它们相对于输入图像的下采样系数为×4或×8时，我们称其为大比例特征；而当它们具有相对于输入图像的下采样系数为×16或×32时，则称为小比例特征。大规模输出包含精细特征或特征特征，而小规模输出包含丰富的语义信息特征。这些不同的特征的存在使得在每一个尺度上对特征进行独特的处理成为必要。因此，我们提出了一种新的语义头——可分卷积，它将小尺度和大尺度的特征独立地聚合起来，然后将上下文特征与精细特征进行关联融合。我们证明，这在语义上加强了良好的特性，从而实现更好的对象边界细化。对于我们的实例头，我们构建在Mask-RCNN的基础上，并使用可分卷积和iABN sync层对其进行扩展。

全景分割的关键挑战之一是解决语义头和实例头的重叠预测的冲突。大多数架构(Kir- illov et al, 2019;波尔齐等人，2019年;Li等，2019b;de Geus et al, 2018)采用了归一化的处理步骤(Kirillov et al, 2019)，该步骤从实例头中采用实例特有的“thing”分割，从语义头中采用“stuff”分割。这种融合技术完全忽略了语义头的逻辑，而对全景分割输出中的“thing”区域进行次优分割，作为语义头的“thing”逻辑可以更有效地解决冲突。为了充分利用两个头的对数，我们提出了一种无参数的全景融合模块，该模块通过选择性衰减或放大融合的对数来自适应地融合对数，其依据是给定实例中每个像素的个别头的预测是令人满意还是令人不满意。我们证明我们提出的全景融合机制比现有架构中广泛使用的其他方法更有效、更高效。

此外，我们还介绍了KITTI全景分割数据集，其中包含具有挑战性的KITTI基准中图像的全景注释（Geiger等，2013）。由于KITTI为整套感知和定位任务提供了依据，因此这些新的全景注释进一步补充了广泛流行的基准。我们希望我们公开提供的这些全景注释能够鼓励将来在多任务学习中进行全面的场景理解研究。此外，为了便于比较，我们在新近引入的KITTI全景分割数据集和IDD数据集上对以前的最新模型进行了基准测试。我们在四个标准的城市场景理解数据集上对我们提出的EfficientPS体系结构进行了详尽的实验评估和基准测试，包括Cityscapes（Cordts等，2016），Mapillary Vistas（Neuhold等，2017），KITTI（Geiger等，2013）和印度驾驶数据集（IDD）（Varma等，2019）。

我们提出的EfficientPS的PQ评分为66.4%，在Cityscapes基准排行榜上的全光分割中排名第一，而无需进行粗略注释训练或使用模型集成。此外，在Cityscapes基准的语义分割任务和实例分割任务中，EfficientPS也排名第二，mIoU得分为84.2%，AP得分为39.1%。。在Mapillary Vistas数据集上，我们的单个EfficientPS模型在验证集上的PQ得分达到40.5％，从而胜过所有现有方法。同样，EfficientPS在KITTI和IDD数据集上始终优于现有的全景分割模型。更重要的是，我们的EfficientPS架构不仅在所有四个全景分割基准上都设置了最新的技术水平，而且通过消耗最少的参数量和最快的推理时间，在计算效率上也最高到以前的最新方法。此外，我们还将我们提出的EfficientPS体系结构、训练代码和预先训练的模型公开提供。

总之，以下是这项工作的主要贡献：

用于全景分割的新型EfficientPS架构，融合了我们提出的高效共享的主干网络，新的特征对准语义头，一个新的变型Mask R-CNN作为实例头，以及我们新型的自适应全景融合模块相结合。
提出了一种新的全景主干网络结构，由增强的EfficientNet结构和我们提出的双路FPN组成。该双向FPN可以双向编码和聚合语义丰富的多尺度特征。
一种新颖的语义头，能有效地捕捉精细的特征和长范围的上下文，并在融合之前将它们关联起来，以更好地细化对象边界。
一个新的全景融合模块，可根据其语义和实例头的置信度动态调整来自语义头和实例头的logit融合，并将实例特定的“thing”类与“stuff”类整合在一起，以计算全景预测。
KITTI全景分割数据集，可为具有挑战性的KITTI基准数据集的图像提供全景真实注释。
在新引入的KITTI全景分割数据集和IDD数据集上对现有最先进的全景分割结构进行基准测试。
在城市景观，Mapilliary Vistas，KITTI和IDD数据集上对我们提议的EfficientPS体系结构进行全面基准测试。
广泛的消融研究，将我们在这项工作中建议的各种网络结构的性能与最新网络结构进行比较。
可以在以下位置公开获取我们提出的体系结构的实现以及所有四个数据集的实时演示。http://rl.uni-freiburg.de/research/panoptic.