EfficientPS论文翻译-------第二部分：相关工作

最新推荐文章于 2024-01-24 14:11:06 发布

gz7seven

最新推荐文章于 2024-01-24 14:11:06 发布

阅读量658

点赞数

分类专栏：深度学习文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/guzhao9901/article/details/106472718

版权

深度学习专栏收录该内容

43 篇文章 77 订阅

订阅专栏

EfficientPS论文翻译-------第二部分：相关工作

全景分割是最近提出的一个场景理解问题(Kirillov et al, 2019)，它统一了语义分割和实例分割的任务。对于这些子任务，已经提出了许多方法，但是只有少数方法被引入来处理全景分割的连贯场景理解问题。该领域的大部分工作都是基于语义分割和实例分割的进展，因此我们首先回顾了最近提出的用于这些密切相关的子任务的方法，然后介绍了用于全景分割的最新方法。

语义分割：近年来，语义分割方法有了很大的发展。在本节中，我们将简要回顾使用单目图像来处理此任务的方法。过去十年的方法，通常使用随机决策森林来处理这个任务。Shotton等(2008)在局部块上使用随机决策森林进行分类，而Plath等(2009)结合局部和全局特征以及条件随机域(CRFs)进行分割。与利用基于外观的特征相反，Brostow等人(2008)利用随机森林的运动线索。Sturgess等人(2009)进一步将基于外观的特征与来自运动的结构特征以及CRFs结合起来以提高性能。然而，从稠密深度图中提取的三维特征(Zhang et al, 2010)已被证明比组合特征更有效。Kontschieder等人(2011)利用对象类的固有拓扑分布来改进性能，而Kra¨henbu¨hl和Koltun(2011)则通过将CRFs与高斯边缘配对来改进分割。然而，所有这些方法都采用了手工的特性，这些特性没有封装所有的高级和低级关系，从而限制了它们的表示能力。

基于卷积神经网络(CNN)的方法在分类任务性能上的显著提高，促使研究者们探索这种语义分割方法。最初，这些方法依赖于逐块训练，这严重限制了它们准确划分对象边界的能力。但是，它们的性能仍然比以前的手工方法好得多。由全卷积网络(FCNs)引入的端到端语义分割学习方法的出现(Long et al, 2015)彻底改变了这一领域，FCNs仍然是当今最先进的架构的基础。FCN是一种编码-解码器架构，其中编码器基于VGG-16 (Simonyan and Zisserman, 2014)架构，将内积层替换为卷积，解码器由卷积层和转置卷积层组成。随后提出的SegNet (Bad- rinarayanan et al, 2015)架构引入反池层进行向上采样，以替代置换卷积，而ParseNet (Liu et al, 2015)则直接对全局上下文进行建模，而不是仅仅依赖于网络最大的接受域。

PSPNet (Zhao et al, 2017)体系结构强调多尺度特征的重要性，并提出金字塔池化来学习不同尺度的特征表示。Yu和Koltun(2015)引入了卷积，进一步利用语义分割网络的多尺度特征。随后，Valada等(2017)提出了具有不同膨胀率的并行无张力卷积的多尺度残差单元，在不增加参数数量的情况下，高效地学习整个网络的多尺度特征。Chen等(2017b)提出了Atrous Spatial Pyramid Pooling (ASPP)模块，该模块将具有不同扩张速率的多个并行Atrous convolutions的特征图连接起来，并形成一个全局池化层。ASPP通过聚合多尺度特征和捕获远程上下文，大大提高了语义分割网络的性能，但同时也大大增加了计算复杂度。因此，Chen等(2018a)提出了稠密预测单元(DPC)， Valada等(2019)提出了高效的Atrous Spatial Pyramid Pooling (eASPP)，它比ASPP产生更好的语义分割性能，而其效率是ASPP的10倍。Li等(2019a)认为，全局特征聚合往往会导致模式特征变大，而小模式的过平滑区域则会导致性能次优。为了缓解这一问题，作者提出了使用全局聚合模块和局部分布模块的方法，从而实现在大模式区域和小模式区域之间的功能平衡。同时也提出了一些改进编码器-解码器结构中解码器上采样的工作。在(Chen et al .， 2018b)中，作者介绍了一种用于对象边界细化的解码器模块。Tian等人(2019)提出了依赖于数据的上采样，这解释了标签空间中的冗余，而不是简单的双线性上采样。

实例分割：一些初始方法使用CRFs (He和Gould, 2014b)和最小化整数二次关系(Tighe et al, 2014)。利用马尔科夫随机场(Zhang et al, 2016)和循环神经网络(Romera-Paredes and Torr, 2016)的CNNs的方法;Ren和Zemel, 2017)也进行了探索。在本节中，我们主要讨论基于cnn的实例分割方法。这些方法可以分为基于proposal-free和proposal 方法。

proposal-free类别中的方法通常从产生的转换获得一致的掩码。Bai和Urtasun(2017)使用CNNs生成图像的能量图，然后在单个能量级上进行切割，以获得相应的对象实例。Liu等(2017)采用CNNs序列来解决子分组问题，以组合对象实例。一些方法可以使用局部一致性来估计实例(Dai et al, 2016)，也可以将每个像素的方向编码到对应的实例中心(Uhrig et al, 2016)。最近的SSAP (Gao et al, 2019)使用像素对关联金字塔来计算两个像素级属于同一实例的概率。然而，他们实现了低于基于proposal的方法，这导致了他们的普及率下降。

在基于proposal的方法中，Hariharan等(2014)提出了一种将多尺度组合分组(Arbela’ez et al, 2014)的proposal作为输入到CNNs中进行特征提取，然后使用SVM分类器进行区域分类的方法。随后，Hariharan等(2015)提出了超列像素描述符，用于同时检测和分割。在最近的工作中，DeepMask (Pin- heiro et al, 2015)使用图像的一个path作为输入到CNN，生成一个类不可知的分割掩码和包含对象的path的可能性。FCIS (Li et al, 2017)利用像素相对位置分类得到的位置敏感评分图，共同进行分割和检测。Dai等人(2016)提出了一种实例分割方法，使用三种网络来区分实例、估计掩码和对对象进行分类。Mask R-CNN (He et al, 2017)是当今最流行和广泛使用的方法之一。它扩展了Faster R-CNN，例如通过添加一个对象分割分支与一个执行边界框回归和分类的分支并行。最近，Liu等人(2018)提出了一种方法，通过增加自底向上的路径增强来提高网络早期层的对象定位能力，从而改进掩Mask R-CNN。随后，BshapeNet (Kang and Kim, 2018)扩展了Faster R-CNN，添加了一个边界框掩码分支，提供额外的对象位置和坐标信息，以提高对象检测和实例分割的性能。

全景分割：Kirillov等(2019)通过引入全景分割恢复了语义分割和实例分割任务的统一。他们提出了一个基线模型，将PSPNet (Zhao et al, 2017)和Mask R-CNN (He et al, 2017)的输出与一个简单的后处理步骤相结合，其中每个模型独立处理输入。解决全景分割任务的方法大致可分为两类:自顶向下或基于proposal的方法和自底向上或proposal-free的方法。目前最先进的方法大多采用自顶向下的方法。de Geus等人(2018)提出了一种与共享主干进行联合训练的方法，该主干分支为用于语义分割的Mask R-CNN和增强金字塔池化模块。随后，Li等人(2019b)引入了注意引导统一网络，该网络使用proposal注意模块和掩码注意模块来更好地分割“stuff”类。上述所有方法都使用了与Kirillov et al(2019)类似的融合技术来融合“stuff”和“thing”的预测。

在自顶向下的全景分割结构中，两个头的预先判断在它们之间有一个固有的重叠，导致掩码重叠问题。为了缓解这个问题，Li等人(2018b)提出了一个弱监督模型，其中“thing”类由包围框进行弱监督，“stuff”类使用图像级标记进行监督。而Liu等(2019)通过引入空间排序模块解决了这一问题，Li等(2018a)提出了一种学习二进制掩码的方法来明确约束‘stuff’和‘thing’的输出分布。随后，UPSNet (Xiong et al .， 2019)引入了一个无参数全景头来解决实例重叠的问题，并预测了一个额外的未知类。最近，AdaptIS (Sofiiuk et al, 2019)使用point proposal来生产实例掩码，并与一个标准的语义分割通道联合训练来执行全景分割。相比之下，Porzi等人(2019)提出了一种全景分割的架构，该架构有效地集成了来自轻量级deeplb启发模块的上下文信息和来自FPN的多尺度特性。

与目前流行的基于proposal的方法相比，目前已经提出的proposal-free方法屈指可数。Deeper-Lab (Yang et al .， 2019)是引入的第一个自底向上的方法，它使用了一种编码-解码器拓扑方法，将对象中心与DeepLab语义分割结合起来，以实现与不可知类的实例分割。Cheng等人(2019)在Deeper-Lab的基础上更进一步，为每个子任务分支引入了双aspp和双解码器结构。SSAP (Gao et al .， 2019)提出基于像素对亲和金字塔对像素进行分组，并结合一种高效的图形方法来生成实例，同时共同学习语义标记。

在这项工作中，我们采用自上而下的方法，因为它具有出色的处理实例大规模变化的能力，这是分割“thing”类的关键要求。我们提出了新颖的EfficientPS体系结构，该体系结构将我们提出的高效主干网络与双向FPN相结合，以双向方式学习丰富的多尺度特征，并结合了一个新的语义头，可以有效地捕获精细特征和上下文，以及 Mask R-CNN的变体，增加了可分离卷积作为实例头。我们提出了一种新颖的全景融合模块，动态地适应语义和实例头信息的融合，以产生全景分割输出。我们的架构在基准数据集上达到了最先进的结果，同时是最高效，最快速的全景分割架构。