Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Sal

最新推荐文章于 2024-04-19 09:47:30 发布

Lily-sunshine

最新推荐文章于 2024-04-19 09:47:30 发布

阅读量1.2k

点赞数 2

分类专栏： DL-Saliency 文章标签：显著性目标检测

本文链接：https://blog.csdn.net/qq_33964352/article/details/83831277

版权

本文提出一种端到端网络，解决显著对象检测问题，包括对象的排序和计数。网络采用分阶段细化策略，通过嵌套相对显著性堆栈和多级显著性图融合，实现空间精度和相对显著性的建模。实验表明，该方法在多个显著对象检测和排序任务上超越了现有技术。

摘要由CSDN通过智能技术生成

问题：

作者认为，显著性目标检测领域迄今为止的工作解决的是一个相当病态的问题。即不同的人对于什么是显著性目标没有一个普遍的一致意见。这意味着一些目标会比另一些目标更加显著，并且不同的显著性目标中存在着一个相对排名。

本文方法：

本文方法解决了考虑了相对排名这个更普遍的问题，并且提出了适合于衡量该问题的数据与度量方法，本文解决方案是基于相对显著性和分段式细化的分层表示的深度网络。该网络也可以解决显著性目标计数问题。

主要贡献：

1.提出一个端到端网络用以解决多个显著对象检测问题，并根据对象的显著程度进行排序。

2.提出阶段性细化机制，在该结构上逐步恢复更精细结构的预测。

以下为论文翻译（如有疏漏还望谅解）

摘要

目标显著性检测是一个已经详细考虑的问题，并且提出了许多解决方案。在本文中，我们认为迄今为止的工作已经解决了一个相对病态的问题。具体而言，没有普遍的协议关于在查询多个观察者时什么构成显著对象。这意味着某些对象比其他对象更容易被判断为显著，并且暗示在显著对象上存在相对等级。本文提出的解决方案解决了考虑相对等级的这个更普遍的问题，并且我们提出了适合于衡量相对对象显著性格局中的成功的数据和度量。基于相对显著性和阶段式细化的分层表示，提出了一种新颖的深度学习解决方案。我们还表明，可以使用相同的网络解决显着对象子化的问题，并且我们的方法超出了所有考虑的所有指标（传统和新提出的）的任何先前工作的性能。

1.简介

显著物体检测中的大多数工作都考虑单个显著物体[37,38,7,8,31,32,9,19,17,24,39,18]或多个显著物体[13,27,36] 但是并不认为突出的东西可能因人而异，某些物体可能会因其重要性而得到更普遍的一致。

缺少数据，包括由多个观察者手工分割的显著对象。重要的是要注意，由少数观察者（包括一个）提供的任何标签都不允许辨别物体的相对重要性。基于凝视数据[33]的相对显著性的隐式分配也给出了困难，给出了不同的认知过程而不是涉及手动标记的计算决策[16]。此外，注视数据对于解释诸如中心偏差，视觉运动约束和其他潜在因素等给定因素是相对具有挑战性的[2,1]。

图1.我们以深度神经网络的形式提出一个解决方案来检测显著对象，考虑这些对象显著性的相对排序，并预测显着对象的总数。左向右：输入图像，检测到的显着区域，显著对象的等级顺序，显着对象计数的置信度得分（子化）。颜色表示不同显着对象实例的排名顺序。

因此，在本文中，我们更广泛地考虑了显著对象检测的问题。这包括检测图像中的所有显著区域，并通过为不同的显著区域分配置信度来解释观察者间的变异性。我们通过进一步处理来增加PASCAL-S数据集[23]，以便以相对显著性的形式提groundtruth。除了传统度量之外，基于显著对象相对于groundtruth排序的等级顺序，针对其他算法测量成功。最近的工作也考虑了显著对象的次级化问题。我们的观点是，这种确定应该可以通过提供显著物体检测的模型来实现（见图1）。我们还允许我们的网络进行细分。

总的来说，我们的工作概括了显著对象检测的问题，我们提出了一个新的模型，根据这个问题的传统形式，多个显著对象检测和相对排序，以及子化，提供显著对象的预测。我们的结果显示了所考虑的所有问题的最新性能。

2.背景

2.1显著性目标检测

卷积神经网络（CNN）已经提高了计算机视觉中许多问题的性能标准，包括显著对象检测。基于CNN的模型能够提取比现代工作中使用的手工制作的功能更具代表性和复杂性的功能[21,34,15]，这些功能促进了广泛采用。

一些基于CNN的方法利用超像素和对象区域提议来实现准确的显著对象检测 [9,19,17,22,39,18]。这些方法遵循多分支架构，其中CNN用于跨不同抽象级别提取语义信息以生成初始显著性预测。随后，添加新分支以获得超像素或对象区域提议，其用于提高预测的精度。

作为超像素和对象区域提议的替代方案，其他方法[26,8,37]通过聚合多级特征来预测每像素的显着性。罗等人。 [26]通过CNN整合本地和全球特征，CNN结构为多分辨率网格。侯等人[8]在浅层和深层特征图之间实现阶段式短连接，以实现更精确的检测，并推断出仅考虑中间层特征的最终显著性图。张等人[37]将多级特征组合为提示，以生成和递归微调多分辨率显着图，这些显著图通过边界保留细化块进行细化，然后融合以产生最终预测。

其他方法[24,31,38]使用端到端编码器 - 解码器架构，该架构产生初始粗略显着图，然后逐级细化它以提供显着对象的更好定位。 Liu和Han [24]提出了一种将局部上下文信息逐步与粗略显着图相结合的网络。王等人[31]提出了一种用于显著性检测的循环完全卷积网络，其包括用于校正初始显著性检测错误的先验。张等人[38]在特定卷积层之后引入重新形成的丢失以量化卷积特征中的不确定性，以及用于减少反卷积伪像的新的上采样方法，从而为显著对象检测提供了更好的边界。

与上述方法相反，我们通过应用新颖的机制来控制通过网络的信息流，通过逐步细化来实现空间精确度，同时还重要地包括隐含地携带确定相对显著性所必需的信息的堆叠策略。

2.2显著性目标的细化

最近的工作[35,7]也解决了图像中对显著对象进行细分的问题。此任务涉及计算显著对象的数量，而不管其重要性或语义类别。 [35]中提出的第一个显着对象子网格网络应用前馈CNN将问题视为分类任务。 He等人 [7]通过探索数字和空间表示之间的相互作用，将子化任务与检测结合起来。我们的建议提供了对显着对象数量的具体确定，识别该数量的可变性，并且还提供输出作为反映这种可变性的分布。

3.提出的网络结构

我们提出了一个新的端到端框架，用于解决检测多个显著对象的问题，并根据对象的显著程度对对象进行排序。我们提出的显著物体检测网络的灵感来自卷积 - 反卷积通道[28,24,12]的成功，其中包括用于初始粗略水平预测的前馈网络。然后，我们提供阶段性的细化机制，在该机制上逐渐恢复更精细结构的预测。图2显示了我们提出的网络的总体架构。编码器阶段用作特征提取器，其将输入图像转换为丰富的特征表示，而细化阶段尝试恢复丢失的上下文信息以产生准确的预测和排名。

我们首先描述如何在3.1节中生成初始粗略显着图。接下来分别对3.2节和3.3节中的阶段细化网络和多阶段显着图融合进行详细描述。

3.1粗预测前馈网络

最近应用于高级视觉任务的前馈深度学习模型（例如图像分类[6,30]，目标检测[29]）采用由重复卷积阶段和空间汇集组成的级联。通过池化进行下采样允许模型在编码的最深阶段实现具有相对较差的空间分辨率的高度详细的语义特征表示，并且还通过范围大得多的滤波器的空间覆盖来标记。对于识别问题，空间分辨率的损失不成问题;然而，逐像素标记任务（例如，语义分割，显著对象检测）需要像素精确信息以产生准确的预测。因此，我们选择Resnet-101 [6]作为我们的编码器网络（基本构建块），因为它在分类和分段任务方面具有优越的性能。按照像素标记[3,12]的先前工作，我们使用扩张的ResNet-101 [3]来平衡语义上下文和精细细节，从而使输出特征图减少8倍。更具体地说，给定输入图像 $I\epsilon \mathbb{R}^{h\times w \times d}$ ，我们的编码器网络产生一个大小为 $\left \lfloor \frac{h}{8} ,\frac{w}{8}\right \rfloor$ 的特征图。为了通过自上而下的细化网络扩充编码器网络的主干，我们首先附加一个额外的卷积层和3×3内核和12个通道，以获得嵌套相对显着性堆栈（NRSS）。然后，我们附加一个Stacked Convolutional Module（SCM）来计算每个像素的粗略水平显著性得分。值得注意的是，我们的编码器网络足够灵活，可以替换为任何其他基线网络，例如： VGG-16 [30]，DenseNet 101 [10]。此外，我们利用金字塔池化[3]来收集更多的全局背景信息。所描述的操作可以表示为：

I是输入图像，（W， $\Theta$ ）表示卷积C的参数. $S_{v}^{t}$ 是阶段t的粗级NRSS，其封装了每个像素的不同显著程度（类似于预测可能同意一个对象的观察者的比例是显着的）， $S_{m}^{t}$ 指的是粗级显着著图，并且 $\xi$ 是指SCM。 Fs（·）表示由编码器网络生成的输出特征映射。 SCM由三个卷积层组成，用于生成所需的显着图。初始卷积层有6个通道，3×3内核，后面是两个卷积层，分别有3个通道，3×3内核和1个通道，1×1内核。 SCM中的每个通道为嵌套的相对显着性堆栈的每个空间位置学习软权重，以便基于它们属于显著对象的置信度来标记像素。

3.2逐阶段细化网络

已经显示出显著对象检测成功的大多数现有作品[24,32,37,8]通常共享阶段式解码的共同结构以恢复每像素分类。尽管编码器的最深阶段具有最丰富的特征表示，但仅依靠解码阶段的卷积和解除池化来恢复丢失的信息可能会降低预测的质量[12]。因此，可以从较早的表示逐渐恢复在最深层丢失的空间分辨率。这种概念出现在所提出的基于细化的模型中，其包括编码器和解码器层之间的跳跃连接[25,12,37,8]。但是，如何有效地结合本地和全局背景信息仍然是值得进一步分析的领域。受基于细化的方法[25,11,12]的成功启发，我们提出了一种基于多阶段融合的细化网络，通过将初始粗略表示与早期层表示的更精细特征相结合，在解码阶段恢复丢失的上下文信息。细化网络由等级感知细化单元的连续阶段组成࿰