论文解读-Hybrid Task Cascade for Instance Segmentation

sanguine__

于 2024-01-23 23:17:28 发布

阅读量1.7k

点赞数 21

文章标签：人工智能图像处理计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/sanguine__/article/details/135736452

版权

摘要：

Cascade是一个经典但功能强大的架构，可以提高各种任务的性能。然而，如何在实例分割中引入级联仍然是一个悬而未决的问题。级联R-CNN和掩模R-CNN的简单组合只能带来有限的增益。在探索一种更有效的方法时，我们发现一个成功的实例分割级联的关键是充分利用检测和分割之间的相互关系。在这项工作中，我们提出了一个新的框架，混合任务级联(HTC)，它在两个重要方面有所不同:(1)它不是单独对这两个任务进行级联细化，而是将它们交织在一起进行联合多阶段处理;(2)采用全卷积分支提供空间上下文，有助于区分硬前景和杂乱背景。总体而言，该框架可以逐步学习更多的判别特征，同时在每个阶段将互补特征整合在一起。在MSCOCO数据集上，单个HTC比强级联掩模R-CNN基线分别获得38.4%和1.5%的改进。此外，我们的整体系统在测试挑战分割上实现了48.6个掩码AP，在COCO 2018挑战目标检测任务中排名第一。

1.引言

Cascade R-CNN[5]提出了一种多阶段的目标检测架构，并取得了令人满意的结果。

Cascade R-CNN的成功可以归因于两个关键方面: (1)预测的逐步细化和(2)训练分布的自适应处理。
与bbox AP相比，直接组合Cascade R-CNN和Mask R-CNN[18]在Mask AP方面的增益有限。具体而言，bbox AP提高了3.5%，Mask AP提高了1.2%，如表1所示。造成这种巨大差距的一个重要原因是不同阶段掩模分支之间的信息流不优。后期阶段的掩码分支只受益于更好的本地化边界框，而没有直接连接。
混合任务级联(HTC)关键思想是通过在每个阶段结合级联和多任务来改善信息流，并利用空间环境来进一步提高准确性。具体来说，我们设计了一个级联管道进行逐步细化。在每个阶段，边界盒回归和掩码预测都以多任务的方式结合起来。此外，在不同阶段的掩模分支之间引入了直接连接——每个阶段的掩模特征将被嵌入并馈送到下一个阶段，如图2所示。整体设计加强了任务之间和阶段之间的信息流，从而在每个阶段进行更好的细化，并对所有任务进行更准确的预测。
对于目标检测，场景上下文也提供了有用的线索，例如推断类别、尺度等。为了利用这种情况，我们合并了一个执行像素级内容分割的全卷积分支。这个分支不仅编码来自前景实例的上下文信息，还编码来自背景区域的上下文信息，从而补充了边界框和实例掩码。我们的研究表明，利用空间背景有助于学习更具辨别性的特征。
HTC易于实现，可以端对端进行培训。在具有挑战性的COCO数据集上，它的掩模AP分别比mask R-CNN和Cascade mask R-CNN基线高2.6%和1.4%。结合更好的主干和其他常见组件，如可变形卷积、多尺度训练和测试、模型集成，我们在测试开发数据集上实现了49.0的掩码AP，比2017年COCO挑战赛的获胜方法[28]高出2.3%。
主要研究成果如下:(1)提出了混合任务级联(Hybrid Task Cascade, HTC)，该方法通过将检测和分割特征交织在一起，进行联合多阶段处理，有效地将级联集成到实例分割中。它在COCO测试开发和测试挑战上达到了最先进的性能。(2)通过区分前景目标和背景干扰，证明空间背景有利于实例分割。(3)我们对各种组件和设计进行了广泛的研究，为进一步研究目标检测和实例分割提供了参考和帮助。

2.相关工作

实例分割：
实例分割是一项在像素级定位图像中感兴趣的对象的任务，其中分割的对象通常由蒙版表示。该任务与目标检测和语义分割密切相关[30,22]。因此，该任务的现有方法大致分为两类，即基于检测的和基于分割的。

基于检测的方法利用传统的检测器生成边界框或区域建议，然后预测边界框内的目标掩码。这些方法中有很多是基于CNN的，包括DeepMask[36]、SharpMask[37]和InstanceFCN[10]。MNC[11]将实例分割作为一个由实例定位、掩码预测和对象分类三个子任务组成的流水线，以级联的方式对整个网络进行端到端的训练。在最近的一项工作中，FCIS[23]扩展了InstanceFCN，并提出了一种完全卷积的实例分割方法。mask - rcnn[18]在Faster R-CNN[39]的基础上增加了一个额外的分支来获得像素级掩码预测，这表明一个简单的管道可以产生很好的结果。PANet[28]在FPN[24]中除了自顶向下的路径外，还增加了一条自底向上的路径，以方便信息的流动。MaskLab[7]通过结合语义和方向预测生成实例感知掩码。 基于分割的方法首先在图像上获得像素级分割映射，然后从中识别对象实例。沿着这个思路，Zhang等人 [46, 45] 提出根据局部patches 预测实例标签，并将局部结果与马尔可夫随机场（MRF）集成。Arnab和Torr [1]使用条件随机场（CRF）来识别实例。Bai和Urtasun [2]提出了一种替代方法，将分水岭变换和深度学习相结合，生成能量图，然后通过分割分水岭变换的输出来得到实例。其他方法包括桥接类别级别和实例级别分割[42]，学习边界感知的掩模表示[17]，以及使用一系列神经网络来处理不同的子分组问题[27]。