RDSNet：一种用于交互对象检测和实例分割的新型深度体系结构

最新推荐文章于 2023-11-30 20:47:37 发布

中国小宝

最新推荐文章于 2023-11-30 20:47:37 发布

阅读量3k

点赞数

译者：蓝燕子

声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！

摘要

目标检测和实例分割是计算机视觉的两项基本任务。它们密切相关，但他们之间的关系在以往的大多数工作中还没有得到充分的探讨。本文提出了一种新的用于交互目标检测和实例分割的深度结构RDSNet。为了回应这两个任务，我们设计了一个两个流结构以共同学习对象级别（即边界框）和像素级别（即实例掩码）上的特征。在这个结构中，来自两个流的信息是交替融合，即对象层的信息引入实例意识和翻译差异到像素级，像素级的信息-在对象级别细化对象的定位精度作为回报。具体地说，相关模块和裁剪模块被提议产生实例掩码，以及基于掩模的边界求精模块边界框。通过对COCO数据集的大量实验分析和比较，证明了该方法的有效性以及RDSNet的效率。源代码位于https://github.com/wangsr126/RDSNet。

1. 引言

目标检测和实例分割是计算机视觉中两个基本的、密切相关的任务论对象层次上的渐进图像理解像素级别。由于应用了deep神经网络，近年来见证了这两项任务的重大进展。然而，他们的关系但在之前的大部分工作中都进行了充分的探索。因此，通过利用交互来提高这两个任务的性能仍然是有意义和具有挑战性的在对象级和像素级信息之间。

目标检测的目标是用矩形边界框并将其分类为特定类别。在这项任务中，最关键的挑战之一在于对象定位，即包含以及紧凑的边界框。正如在许多最先进的方法，定位误差很容易降低其性能，如图1所示。定位误差主要来源于回归方法获取边界框，由于逐点回归并不能直接感知整个对象。因此，更合理的方法是进行对象定位进入像素级任务，与包围盒的定义一致，即最小包围矩形对象掩码的。因此，如果提供了对象掩码，则获取根据遮罩的边界框。

图1：对象检测中的本地化错误。(a)(b)盒子不能完全包围物体。(c)(d)盒子不能紧紧地包裹物体。如果我们完全正确，这些错误中的大多数可以很容易地纠正消除对象检测与实例分割任务之间的倒数关系。结果由MaskR-CNN（He等人）获得。2017）。

实例分割的目的是进一步预测除类别外的每个对象的每像素二值掩码。核心实例分割的思想是引入实例感知像素类别。目前，大多数现有的方法如下一个两阶段的范例（如面具R-CNN（He等人。2017年），也就是说，每个检测都会分别生成掩码提议。这样，遮罩就可以自然地感知各个对象实例。然而，这种循序渐进的过程使得掩模在很大程度上依赖于探测器获得的边界盒，容易受到其定位的影响错误。此外，利用运营商作为投资回报池（Girshick 2015）很大程度上限制了大型物体。FCIS模型（Li等人。2017）介绍位置敏感地图，例如感知分割，但是生成的遮罩仍然仅限于检测结果。其他一些方法可以去除检测器（Fathi等人。但它们的准确度较低。它们的起源缺点主要在于对象级信息的利用不足。

根据以上分析，目标检测和实例分割具有不可忽视的优势。不幸的是，现有的作品很少。关于他们之间的关系。HTC（Chen等人。2019a）是采用级联结构逐步细化两项任务并取得良好效果的代表作结果。然而，这种多阶段的设计带来了较高的计算成本。

在这项工作中，我们提出了一种互惠的目标检测方法和实例分割网络（RDSNet）来利用这两项任务之间的关系。RDSNet采用双流结构，即对象流和像素流。从这两个流中同时联合提取特征，然后在彼此之间交替融合。具体来说，对象流集中在对象级别特征和由基于回归的检测器形成，而像素流关注像素级特征，遵循FCN（Long、Shelhamer和Darrell 2015）架构，以确保高分辨率输出。为了利用来自对象流的对象级提示，一个相关模块和

提出了一个裁剪模块，该模块将实例感知和翻译方差特性引入到像素流，并产生实例感知的分割掩码。然后，提出了一种基于掩模的边界求精模块，以减小定位误差像素流，即基于实例掩码生成更精确的边界框。

RDSNet充分考虑了目标检测和实例分割任务之间的相互关系.与以往的方法相比，它有以下三个优点：1）由RDSNet生成的掩码对不同尺度的对象具有一致的高分辨率；2）由于具有巧妙的裁剪模块，掩码对检测结果的依赖性较小；3）更准确和更准确；更紧密的包围盒是用一种新的像素级公式得到的对象包围盒位置。

我们的主要贡献是探索了对象检测与实例分割任务之间的相互关系。并提出了一种端到端的统一体系结构RDSNet来利用s互为对象级和像素级任务，展示了多任务融合概念的潜力。

2. 相关工作

目标检测。大多数基于CNN的现代探测器都依赖于回归方法来获得物体的包围盒。一种典型的方法是基于锚的方法（2016年；2016年；2017年a；2017年b），它首先用于更快的R-CNN模型（Ren等人）。2015）.在每个滑动窗口位置放置多尺度和纵横比的密集锚，并作为回归参考。探测器对这样的锚盒进行分类，并将偏移量从锚盒回归到包围框。基于回归的检测器的另一个分支消除了锚盒，即无锚，它直接预测物体的中心并在每个位置回归边界1（Huang等人）。2015年；Yang等人。2019年；田等人。2019）.在本工作中，我们提出了一种简单而有效的方法，将上述基于回归的检测器扩展到TH。实例分割任务和定位精度将得到提高。

最近，一些新提出的方法将对象检测为与边界框相关的关键点（Law和Deng2018；周、卓和Krahenbuhl2019；Duan等人）。但复杂的后处理G必须对属于同一实例的这些点进行分组。

实例分割。现有的实例分割方法可以分为两阶段和一阶段。两阶段方法遵循自上而下的过程，即检测-然后-段（He等人）。其中，首先检测对象作为包围框，然后为每个对象生成二进制掩码。基于Mask R CNN的方法（例如。（刘等人）（已主导数次流行国际基准（Lin等人），2014年；Cords等人，2016）.然而，这种逐步的过程使掩模质量在很大程度上取决于盒子的准确性。

One-stage也被称为单镜头方法，因为对象是直接分类、定位和分割的，而不产生候选区域建议。一阶段方法的一个分支（2017年；2017年；2017年；2017年；2019年）遵循自下而上的过程，即先将像素标记为类别或嵌入到特征空间中，然后将像素分组为每个物体。这些方法来源于为语义分割而开发的方法，并且自然地获得了更高分辨率的掩码。但是，不知道对象的状态（数字、位置）等）预先复杂的设计预定义的类别或嵌入式空间，导致劣质的结果。我们认为困境的根源在于缺乏对象级的信息.一个阶段方法的另一个分支（Li等人）。2017年；Bollya等人。建议联合利用自上而下和自下而上的方法。这些方法遵循标签-像素-然后-集群PR大致上，分组方法依赖于检测结果，直接或间接（例如，用检测器预测的包围盒切割掩码）。我们的方法遵循这一过程一般来说，但是引入对象级信息是为了简化具有相关模块的嵌入式空间设计，并且提出了一个改进的裁剪模块来降低边界框上的实例掩码。

边界细化级联R-CNN（蔡和Vasconcelos2018）采用级联体系结构，通过多级迭代定位来细化检测结果。HT C（Chen等人）2019a）信息流。但这些方法是为两阶段方法设计的。相反，我们的方法基于一种新的公式来细化边界定位，并与一个STA兼容通用电气的方法和较少的计算。

图2：建议的RDSNet的体系结构，它遵循两个流结构，即对象流和像素流。来自这两个流的信息是由几个我们相互作用的设计模块：相关模块和裁剪模块引入实例的感知和像素流的平移方差，协助生成实例掩码（见SEC.3.2.)反过来，实例掩码帮助对象流获得更准确的边界框（参见SEC.3.3.c表示类号，k表示一个位置的锚号，d表示表示维度，以及*表示卷积操作。)

3.RDSNet

在本节中，我们首先介绍RDSNet的整体架构，其中核心是一个由对象流和像素流组成的双流结构，如图所示。2.然后是双胞胎介绍了两个流之间的定向交互，即利用对象级信息来促进实例分割，以及利用像素级信息来促进对象DET切。

3.1 双流结构

RDSNet的核心是双流结构，即对象流和像素流。这两条小溪共用相同的FPN（Lin等人.2017a）主干，然后为每个相应的任务分离。这种平行结构支持对象级和像素级信息的分离以及不同任务的可变分辨率。

对象流。对象流侧重于对象级信息，包括对象类别，位置等..它可以由各种基于回归的检测器形成（Liu等）。2016年；Redmon and法哈迪2018年；林等人.2017b）。此外，我们还添加了一个与分类和回归分支并行的新分支，以提取每个锚点（或位置）的对象特征。这条河负责产生检测结果，稍后将由像素级信息细化（见SEC.3.3）。

像素流。像素流的重点是像素级信息，并遵循FCN（2015）的高分辨率输出设计。具体来说，每像素特征是在这个流中提取的，并且用于通过使用对象级信息生成实例掩码（参见SEC.3.2）。

3.2 Object Assisted Instance Segmentation

从实例不可知到实例感知。实例分段的目的是为每一个像素，但它经常会受到由于二维图像平面中物体的数目和位置不确定，可以使用预先定义的像素类别。正确的解决方案是利用对象级信息引入实例意识。为此，设计了一个相关模块，根据像素间的相似性，将每个像素连接到相应的实例上表示，从对象流中学习以及像素流。

给定物体o，我们用φ(Vo)∈R^(2×d×1×1)表示它的表示，其中VO从对象流表示该对象的特征，d是表示的维数。2维对于φ（Vo），我们同时考虑了前景和背景。同样，我们将整个图像的像素表示形式表示为Ψ（U）∈R^(1×d×h f×wf)，其中U表示fea来自像素流的Ture映射，h_f和w_f是Ψ(U)的空间尺寸。

对应模块的目的是测量φ（VO）和Ψ（U）之间的相似性。相关运算定义为

*表示卷积算子。相似映射Mo∈R^(2×1×hf×wf)的两个通道可以看作

每个像素的前景和背景概率对应于对象o。像素级交叉熵损失为Mo在训练阶段附加在任务单上。对于图像中的所有对象，分别重复同步地进行相关操作。相关模块启用掩码发电机端对端培训。从某种意义上说，训练我们的相关方法的过程类似于度量学习（Fathi等人。即，将前景像素的表示拉向其在特征空间中的对应对象表示，并将背景像素的表示推开，如图3所示。

图3：用于对象2和像素的表示的插图，两者分别嵌入到对象流和像素流中的d维特征空间中。像素表示在特征空间中，S接近相应的实例表示，不同的对象具有不同的表示。进行降维（从d到3）和L2归一化以重新计算训诫。

从平移不变到平移不变。与大多数两阶段实例分割方法不同（He等人.2017年），由上述相关模块为每个对象生成的掩码覆盖了w孔图像，不考虑物体大小和位置..这种特性保证了高分辨率的结果，但噪声很容易涉及。这一缺点主要归因于翻译。卷积的性质：任何两个具有相似外观的像素都倾向于具有相似的表示，尽管它们实际上可能属于不同的实例或背景。所有的财产由于像素表示中没有空间信息，很难直接排除噪声。幸运的是，我们可以通过使用边界框来克服这个缺点由对象流CED，因为它们可以提供足够的空间限制。具体来说，对于每个对象，其边界框之外的像素直接设置为背景，并在训练期间忽略。S裁剪策略使实例掩码仅限于边界框的内部区域，并且远离像素的像素不参与实例掩码，即使它们具有类似的外观.然而，简单地用这样的包围框裁剪会使实例掩码受到检测结果的定位错误的影响（如图1(a)(b)）并意外地导致一个强大的检测和分割结果。

为了解决这个问题，可以通过裁剪带有扩展边界框的遮罩来进行折衷。在推理过程中，这样的策略保证了遮罩对包围盒的依赖性相对较低，并且像素足够远不在面具里。而且，用扩展的边界框使训练期间为负像素。两种极端情况，即不裁剪和不扩大裁剪，对我们的任务都是有害的，因为太多的多样性会导致收敛困难，而多样性不足则会导致分别为特征空间。

应该注意的是，用扩展的包围框裁剪会使每个对象在训练过程中涉及到更多的背景像素，使得背景像素很容易主导训练过程。为了在前景和背景之间保持一个可控的平衡（在我们的实验中是1：1），用于背景像素的在线硬例挖掘（OHEM）（Shrivastava、Gupta和Girshick2016）是一个选择了。

3.3 蒙板辅助目标检查

在这一部分中，我们介绍了如何利用像素级信息来增强检测结果..根据上述分析，像素级信息具有潜在的可能性eFit检测任务，尤其是用于对象边界定位。为此，我们提出了一种基于贝叶斯定理的边界定位新公式。在此公式中，我们理解：利用从对象流和像素流中获得的边界框和实例掩码，得到每个对象的更精确的边界框。基于这个公式，一个基于掩模的边界提出了细化模块（MBRM）。

基于掩码的边界细化模块。包围框最初定义为对象的最小包围矩形，表示它绝对依赖于实例所覆盖的区域面具。从这个意义上说，通过回归方法获得包围框似乎是间接的，这是现有对象检测方法中常用的方法。相反，如果提供了实例掩码，则为qui简单的解决方案是使用它的最小包围矩形作为检测结果。这正是我们的基线命名为Direct。在这种情况下，在像素流中生成，回归边界框掩码。

虽然回归边界框可能包含定位错误，但我们认为它们在一定程度上仍然为对象边界位置提供了合理的先验。因此，我们的提法联合擦除检测和分割结果。具体而言，我们将边界的坐标视为离散随机变量。从概率角度来看，对象边界位置。是边界所在的坐标概率的argmax，即

其中X是左边界水平坐标的离散随机变量，M0偶式Rh×w是方程中M的前景信道。（1）向上采样到输入图像大小h×w，并且移除大小1的维数，P（X=i | M‘）表示给定相应实例掩码M0的后验概率。

表1：COCO测试-dev的实例分割结果。表示土卫六XP或1080Ti，V表示特斯拉V100..“8月”意味着训练期间的数据增强：o只用水平翻转训练增强和√是进一步训练与规模增强。†意味着这一条目是由毫米探测提供的模型获得的（Chen等人.2019b）。

表2:COCO测试开发的目标检测结果。我们用网络深度表示主干，其中R、D和H表示ResNet（He等.2016年），DarkNet（Redmon和Farhadi 2018年）和Hourglass（Newell、Yang和Deng 2016年）。

在下面，我们只以左边界的推导为例，它可以很容易地扩展到其他边界。

根据贝叶斯定理，我们有:

其中P（X=I）和P（M0|X=I）是相应的先验概率和似然概率。

假设边界仅与M0中每行的最大值相关，且只影响其相邻像素，则似然概率可定义为:

其中

而s是一个超参数，描述了边界对其相邻像素的影响范围..理想情况下，边界上的像素只影响其最近的两个相邻像素，即一个o。包围框的概率为0，里面的另一个有概率1。在这种情况下，s=1。然而，实例掩码并不那么尖锐，因此很难为

提供适当的公式。因此，我们用一维卷积与Kerne近似大小为2s+1，然后是用于归一化的Sigmoid函数，参数是通过反向传播学习的。

对于P（X=I），我们简单地采用离散高斯分布。

其中α是归一化系数。显然，边界位置的分布与实例尺度有关，因此我们设置了:

其中WB表示边界框的宽度，XR表示回归左边界的水平坐标，γ指定回归边界的权重。可以看到γ越小表示回归边界的权重较高，反之亦然。

在训练过程中，ground-truth被转换对一个沿图像宽度或高度方向的onehot编码，利用交叉熵损失训练上述坐标进行分类任务。

图4：对COCOval2017的一些结果进行视觉比较。顶部、中间和底部行由MaskR-CNN、RDSNet w/o扩展种植或MBRM和完整版本的RDSNet获得。RDSNet Give与面具R-CNN相比，它的面具更锋利。圆圈区域突出了MBRM在减轻定位误差方面的优势。

3.4 进行训练

我们的模型训练的损失函数为：

其中L_cls和L_reg是检测任务中常用的分类和回归损失（Ren等人.2015年；Lin等人）。而Lmask是SEC中描述的像素级交叉熵损失。3.2.只有正锚的表示（与地面真相盒相匹配）被输入到相关模块中以生成实例掩码，然后用扩展的地面图裁剪这些掩码用于计算Lmask的TH盒。换句话说，在Lmask中，展开框之外的像素被忽略。Lrefine是SEC中定义的交叉熵损失。3.3.him和him是超参数损失重新加权。在所有其他参数训练后，MBRM中的参数分别用Lrefine进行训练，以与L收敛。原因是MBRM只需要相对较好的Reg。分配框和实例掩码。

在训练过程中，对象类别和包围框首先由对象流中的检测器以及每个实例的表示获得。同时，像素表示在像素流中生成s。接下来，只有在相关模块中处理NMS之后的提案才能生成实例掩码，然后用d获得的扩展框裁剪这些掩码伊特克托。为了得到精确的坐标，这些实例掩码被上采样到输入图像大小，然后输入MBRM。最后用阈值0.4对掩码进行二值化。

4. 实验

在这一部分中，进行了实验分析和比较，以证明目标检测与实例分割任务之间的相互关系。我们在COC上报告结果O数据集（Lin等人）。并使用常用的度量方法进行对象检测（APBB）和实例分割（APM）。我们在2017年训练，并对Val2017和Test-dev进行评估。

4.1 实验详情

我们实现了基于mm检测的RDSNet（Chen等人.2019b）。我们使用ResNet-101（He等人.与FPN Lin等人.2017a）为我们的骨干..对于对象流，我们选择一个强的单级detec托尔，RetinaNet（林等人）。作为我们的检测器，除非另有说明，以及我们的基线，以验证我们的方法的有效性。

对于像素流，我们采用了Panoptic FPN（Kirillov等人）中语义分割分支的体系结构。将FPN金字塔合并为一个输出，即像素表示，但为了更丰富的表示，通道数被修改为256。

实例和像素表示的维数为32。在训练和推理过程中，我们使用不同的包围框扩展比来裁剪面具。在训练过程中，我们使用地面真相包围框，并将它们的高度和宽度扩大1.5倍，中心点保持。在推理过程中，扩展比设置为1.2。所有的λs都设置为1。

我们在4个GPU（每个GPU 2个图像）上训练我们的模型采用1×训练策略（Chen等人.2019b）以及所有其他设置与RetinaNet相同，然后对MBRM分别进行1k次迭代的训练。

4.2 目标辅助实例分割

在本节中，我们首先验证了我们的相关性和裁剪模块的有效性。我们比较了RDSNet和YOLACT（Bolya等人）。另一种一阶段的方法，例如分割。W.采用YOLACT的主干和检测头，采用扩展裁剪策略（表示为RDSNets）的相关模块，与简单裁剪的线性组合方法进行比较在YOLACT。如Tab所示。用相关方法进行实例分割，得到31.0m AP（1.1mAP），而YOLACT的29.9mAP为29.9mAP。更重要的是，保持快速的速度。比较对于只有在YOLACT中附加限制的前景系数，每个对象都有助于更容易收敛从而得到更好的结果。

在表中进行额外的消融实验。显示了裁剪模块的有效性。如果我们在推理过程中简单地用扩展的回归包围框裁剪掩码，性能就会下降被观察到（第2vs.第3行），它表示模型无法处理背景像素的多样性，除非在训练期间应用扩展策略（第3行v.s.第5行）。一旦对负像素采用OHEM，则观察到1.9mAP比YOLACT改善（第7行）。

表3：关于COCOval2017作物模块有效性的演示。LC：线性组合，Corr：相关，TE：在训练过程中展开，IE：在推理过程中展开.我们最后的梦想PTED选择（最后一行）产生最高的MAP。应该注意的是，通过使用Corr而不是LC，RDSNet在MAP中已经优于YOLACT1.1。

图5：MBRM的超参数灵敏度

然后，我们将RDSNet与最先进的实例分割方法进行了比较。如表所示。我们的方法在速度和精度之间实现了更好的平衡。用sm所有输入大小（550或600），我们实现了32.1m AP的实时速度（32fps）。在800个输入大小的情况下，RDSNet的性能优于大多数单阶段方法，除了Tensor Mask（Chen等人），不过速度慢了近3倍。与两阶段方法相比，值得注意的是RDSNet克服了MaskR-CNN的固有缺点（He等人.2017）在很大程度上，如决议低面具，强烈的依赖面具上的包围盒等，如图1和图4所示。此外，我们认为RDSNet的速度限制在我们的检测器的速度（Lin等人.2017b）（10.9fps）。如表所示。在RDSNet中，只给原始检测器带来轻微的延迟。因此，可以通过切换到其他更快的探测器来进一步加快速度，这超出了这项工作的范围。

4.3 蒙板辅助目标检测

对于检测任务，RDSNet的关键新颖之处在于在一个阶段过程中使用实例掩码的边界框。如表2，我们发现多任务训练掩模发生器确实带来了一定的改进在我们的基线上（RetinaNet Lin et al.）但MBRM在计算成本可以忽略不计的情况下，实现了进一步的一致性改进。注意，所有的收益都来自更精确的边界定位，而不是所有其他方面。为了公平比较，表中只显示了未增加测试时间的单个模型结果。

表4：MBRM对COCOval2017有效性的演示。仅仅将实例掩码的最小包围矩形作为检测结果（第2行）在小obj上不能很好地工作紧急情况。然而，我们的MBRM（第3行）通过像以前一样引入回归边界框来更好地工作。

我们进一步分析了MBRM中超参数对COCOval2017的敏感性，即s和γ，如图5当γ=0时，细化模块不被激活。我们观察到不同的变异改良中的TS。在0.05左右稳定工作，所以在所有的实验中都使用γ=0.05。表示一个像素离边界有多远仍然受到影响。更大的s会导致更精确的resul在一定的范围内，而进一步增加s不会带来很大的改善。我们使用s=4进行所有实验。

然后，我们将MBRM与直接方法进行比较，如表4所示,我们发现直接方法在小规模对象，这表示必须使用回归边界框之前的值。我们的MBRM更适合大的物体，而小的物体上的轻微下降是可以忽略的，如果小的物体有更精确的遮罩，这个问题就可以解决了提供了对象。

5. 结论

我们提出了一个统一的目标检测和实例分割体系结构，实验分析证明了两者之间的相互关系任务。以前工作的缺点是实例掩码的分辨率低，掩码对框和边界框的定位误差很大在这项工作中克服困难。我们认为目标检测和不应单独研究实例分段任务希望今后的工作重点放在不同的图像感知任务之间的相互关系上。

REFERENCES

[1]Arnab, A., and Torr, P. H. 2017. Pixelwise instance segmentationwith a dynamically instantiated network. In IEEE Conference onComputer Vision and Pattern Recognition, 441–450.

[2]Bolya, D.; Zhou, C.; Xiao, F.; and Lee, Y. J. 2019. Yolact: Realtime instance segmentation. In IEEE International Conference onComputer Vision.

中国小宝

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
RDSNet：一种用于交互对象检测和实例分割的新型深度体系结构

译者：蓝燕子声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！摘要目标检测和实例分割是计算机视觉的两项基本任务。它们密切相关，但他们之间的关系在以往的大多数工作中还没有得到充分的探讨。本文提出了一种新的用于交互目标检测和实例分割的深度结构RDSNet。为了回应这两个任务，我们设计了一个两个流结构以共同学习对象级别（即边界框）和像素级别（即实例掩码）上的特征。在这个结构...
复制链接

扫一扫