第六章：Learning to Detect Salient Objects with Image-level Supervision——学习使用图像级监督来检测显著对象

Joney Feng

于 2023-07-26 19:17:53 发布

阅读量200

点赞数

文章标签：学习深度学习机器学习人工智能原型模式 transformer

本文链接：https://blog.csdn.net/adicdfhl/article/details/131945543

版权

0.摘要

深度神经网络（DNN）显著改进了显著目标检测的最新技术。然而，训练DNN需要昂贵的像素级注释。在本文中，我们利用图像级标签提供的重要线索来开发一种仅使用图像级标签进行显著性检测的弱监督学习方法。为了应对这一具有挑战性的任务，我们引入了前景推理网络（FIN）。在我们的训练方法的第一阶段，FIN与全卷积网络（FCN）一起进行图像级标签预测的联合训练。我们提出了全局平滑池化层，使得FCN能够为相应的物体区域分配对象类别标签，而FIN能够使用预测的显著图捕捉所有潜在的前景区域。在第二阶段，FIN使用其预测的显著图作为真实标签进行微调。为了改善真实标签的精细度，我们开发了一个迭代的条件随机场，以强制空间标签一致性，并进一步提升性能。我们的方法减轻了注释工作量，并允许使用现有的大规模训练集和图像级标签。我们的模型运行速度达到每秒60帧，优于无监督方法，并且在性能上与完全监督的对应方法相当甚至更好。

1.引言

受深度神经网络（DNN）在许多计算机视觉领域的显著成功的推动[23,14,11,47,48]，近年来对使用准确的像素级注释样本训练DNN进行显著性检测[57,26,49]的兴趣急剧增加。与无监督方法[56,22]相比，从完全监督中学习的DNN更有效地捕捉到在语义上显著的前景区域，在复杂场景下产生准确的结果。鉴于DNN对数据的需求性质，它们的优越性能严重依赖于具有像素级注释的大量数据集进行训练。然而，注释工作非常繁琐，具有准确注释的训练集仍然稀缺且昂贵。

为了减轻对大规模像素级注释的需求，我们探索了使用图像级标签进行弱监督训练显著性检测器。图像级标签指示图像中是否存在对象类别，并且比像素级注释更容易收集。预测图像级标签的任务侧重于图像中的对象类别，并且不考虑对象的位置（图1左），而显著性检测旨在突出显示前景对象的全部范围，并忽略它们的类别（图1右）。这两个任务在概念上似乎不同，但彼此之间具有内在的相关性。一方面，显著性检测提供了对象候选项，可以更准确地进行类别分类。另一方面，图像级标签提供了图像中主要对象的类别信息，这些对象很可能是显著的前景。此外，最近的研究[34,58]表明，仅使用图像级标签训练的DNNs也能够提供关于对象位置的信息。因此，将图像级标签作为弱监督来训练显著性目标检测的DNNs是自然而然的想法。令人惊讶的是，这个想法在文献中很大程度上尚未被探索。

基于以上观察，我们提出了一种仅使用图像级监督进行显著性检测的新型弱监督学习方法。我们的学习方法包括两个阶段：基于图像级标签的预训练和使用估计的像素级标签进行自训练。在第一阶段，我们使用一个深度全卷积网络（FCN）进行图像级标签预测的任务的预训练。为了使FCN具备将图像级标签与相应对象区域关联的能力，我们提出了全局平滑池化（GSP）层，将特征图的空间高响应聚合到图像级类别得分中。与全局平均池化（GAP）和全局最大池化（GMP）相比，GSP减轻了高估和低估对象区域的风险。此外，GSP采用了更通用的池化操作形式，使GAP和GMP成为其两个特殊情况。由于我们关注通用的显著性目标检测，我们设计了一个名为Foreground Inference Net（FIN）的新网络。当与FCN共同训练用于图像级标签预测时，FIN能够推断出一个前景热图，捕捉所有潜在的与类别无关的对象区域，这对未见过的类别具有很好的泛化能力，并提供了显著性图的初始估计。

在第二阶段，自学习通过估计地面真实显著性图和使用估计的地面真实显著性图训练FIN之间进行交替。为了获得更准确的地面真实估计，我们使用迭代条件随机场（CRF）来优化FIN预测的显著性图。与传统CRF中使用固定的一元项不同，我们提出的CRF通过迭代优化一元项和预测结果来进行推理，类似于EM过程。在实践中，我们的CRF对输入噪声更加鲁棒，并且具有更高的准确性。我们的贡献有三个方面。首先，我们提供了一种使用弱监督学习显著性检测器的新范式，它需要更少的注释工作，并且只使用图像级标签（例如ImageNet [7]）即可利用现有的大规模数据集。其次，我们提出了两种新颖的网络设计，即全局平滑池化层和前景推理网络，使深度模型能够通过利用图像级标签来推断显著性图，并在测试时更好地泛化到之前未见过的类别。第三，我们提出了一种新的CRF算法，它可以对估计的地面真实进行精确的优化，从而实现更有效的网络训练。训练的DNN不需要任何后处理步骤，并且以大幅加速的速度产生了与完全监督对应物相当甚至更高的准确性。

图1.图像级标签（左侧面板）提供了主要对象的信息提示，这些对象往往是显著的前景。我们提出使用图像级标签作为弱监督来学习预测像素级显著性图（右侧面板）。

2.相关工作

完全监督的显著性检测。许多监督算法，如CRFs [32]，随机森林 [17,19,30]，SVMs [35]，AdaBoost [60]，DNNs [31,25,24]等，已成功应用于显著性检测。特别是，基于DNN的方法显著提高了性能。早期的工作 [46,57,26,4]以逐块扫描的方式使用DNN，导致了大量冗余计算。最近，基于FCN的显著性方法 [29,49]已被提出，其在准确性和速度方面都具有更有竞争力的性能。然而，训练这些模型需要大量昂贵的像素级注释。相比之下，我们的方法只依赖于图像级标签进行训练。

弱监督学习。弱监督学习在目标检测 [44]、语义分割 [37] 和边界检测 [18]等领域引起了越来越多的关注。在 [38] 中，弱监督分割被建模为多实例学习问题。通过使用GMP层选择潜在实例来训练FCN。最近，[58]利用GAP从图像标签中学习CNN进行对象定位。然而，GMP和GAP都对潜在实例进行了硬选择，并且对于弱监督学习而言是次优的。为了解决这个问题，[39]使用对数-求和-指数函数来近似最大池化，而[20]提出了一种加权排序池化层来根据排序索引聚合空间响应。我们的方法与这些工作有着相似的思路，但在两个方面有所不同。首先，这些方法旨在分割训练类别的对象，而我们旨在检测通用的显著对象，这需要在测试时对未见过的类别进行泛化，在这个意义上更具挑战性。FIN是为了这个任务而提出的，这些工作尚未对其进行探索。其次，我们研究了全局池化操作的一般形式，并提出了一种新的池化方法（即GSP），它根据特征响应的重要性明确计算权重，更适合我们的任务。另一方面，顶层神经注意模型 [42,55] 需要训练好的CNN进行前向和后向传播。相比之下，我们的方法只需要前向传递来预测显著性图。由于端到端的训练，我们预测的显著性图也更加准确。

在显著性检测中，弱监督学习的探索是有限的。在共同显著性 [10,54] 中，假设一组图像包含共同的对象作为一种形式的弱监督。在 [16] 中，利用二进制图像标签来指示显著对象的存在，并用于训练SVM。据我们所知，我们是第一个利用对象类别标签来学习显著对象检测器的研究者。

3.弱监督显著性检测

用于图像级标签预测的CNN通常由一系列卷积层和几个全连接层组成。设X为一幅训练图像，l ⊆{1,...,C}表示其标签集。CNN将图像X作为输入，并预测一个C维的得分向量yˆ。训练CNN需要最小化某个损失函数L(l,yˆ)，该函数衡量基于真实标签集的预测得分的准确性。尽管CNN是在图像级标签上训练的，但已经证明较高的卷积层能够捕捉到有区别的对象部分并用作对象检测器。然而，编码在卷积层中的位置信息无法传递到全连接层中。

根据上述讨论，最近关于密集标签预测任务（例如语义分割）的研究大多舍弃了全连接层，而是使用全卷积网络（FCNs）来保持空间位置信息。给定输入图像X，FCN会生成一个下采样的得分图S，其中第k个通道Sk对应于第k类。Sk中的高响应表示第k类的潜在对象区域。FCN可以通过完全监督的方式使用像素级注释进行简单训练。在弱监督设置中，仅提供图像级标签，需要一种形式的得分聚合A(·)来基于像素级得分图Sk预测类别k的图像级得分sk = A(Sk)。然后，可以通过预测的类别得分将图像级监督注入到FCN中。全局最大池化（GMP）和全局平均池化（GAP）在文献中已经进行了深入研究，用于实现这一目的。接下来，我们将讨论这两种方法，并提出一种新的平滑形式的全局池化方法。

图2.不同池化方法之间的比较。第一行和第三行：使用不同池化方法生成的FIN（第3.2节）的前景图。第二行和第四行：基于前景图生成的精细显著图（第3.4节）。

3.1.全局平均池化聚合

全局池化操作在得分图S的每个通道中独立进行。为了简洁表示，我们将得分图S的所有列堆叠成一个向量s。全局池化可以用一般形式表示为 s = w * s，其中w ∈ ℝ 表示非负权重向量，ℝ={x : ∥x∥₁ = 1, x ≥ 0} 表示概率单形。权重向量w的取值根据不同的池化操作确定。对于全局最大池化（GMP），只考虑最大响应值，聚合操作可以通过以下最大化问题进行：为了简洁起见，我们只考虑具有一个通道的得分图，即S ∈ ℝ^n×n。为了更紧凑地表示，我们将得分图S的所有列堆叠成一个向量s。全局池化可以用一般形式表示为s = w * s，其中w ∈ ℝ 表示非负权重向量，ℝ={x : ∥x∥₁ = 1, x ≥ 0} 表示概率单形。权重向量w的取值根据不同的池化操作确定。对于全局最大池化（GMP），只考虑最大响应值，聚合操作可以通过以下最大化问题进行：

这个问题可以通过将最高响应的权重设置为1，其他权重设置为0来简单地解决。对于GAP，所有的响应都被等同对待，具有相同的权重值，即s = (1/d) * Σi=1^d si，其中si是特征s的第i个元素，d=n^2是s的维度。尽管GMP和GAP都被成功用于得分聚合，但它们对于在对象区域中定位图像级标签来说并不是最优的。考虑到更高的卷积层可以作为对象（部分）检测器，我们可以将得分图视为这些检测器集合的空间响应。由于GMP只关注单一响应，检测器被训练以使用最具有区分性的对象部分。因此，它们往往无法发现对象的完整范围。相反，GAP鼓励检测器在所有空间位置上具有相同的响应，这是不合理的，并导致过高估计的对象区域。请参见图2中的示例。

我们注意到GMP的缺点主要是由于对最高响应的硬选择，这涉及到一个非平滑的最大化问题（1）。可以证明，通过平滑选择操作，可以在很大程度上解决这些缺点。为此，我们遵循[36]中的技术，在权重向量w中减去一个强凸函数来平滑（1）中的最大化。为简单起见，我们选择L2范数作为凸函数，平滑的GMP可以表示为：

其中μ是一个权衡两个项效果的参数。当μ接近0时，（2）简化为GMP。当μ足够大时，（2）的最大化等价于最小化∥w∥₂²，要求w的每个元素都等于1/d，这与GAP具有相同的效果。由于权重w的L2范数并不明确包含特征响应的信息，我们在聚合响应s中省略了这一项，只使用（2）来确定权重。结果表明，最优权重wˆ可以通过将特征s投影到单形（3）上来计算。提出的全局平滑池化（GSP）可以通过以下两个步骤来形式化：

在第一步中，可以使用投影算法[9]在 O(d)的时间内计算出最优权重wˆ。第二步通过特征向量和权重向量之间的简单内积进行聚合。对于多通道的得分图，GSP可以独立地应用于每个通道。GSP的提出基于两个观点。首先，通过平滑GMP，GSP同时考虑多个高响应，而不是每次只考虑一个单一的响应，这比GMP对噪声高响应更鲁棒，并使训练的深度模型能够更好地捕捉对象的完整范围，而不仅仅是有区分性的部分。其次，与GAP相反，GSP有选择地鼓励深度模型在潜在的对象区域触发，而不是在每个位置盲目地强化高响应。结果，GSP可以有效地抑制背景响应，而背景响应往往会被GAP突出显示。请参见图2中的示例。

3.2.前景推理网络

当在图像级标签上与GSP层一起进行联合训练时，FCN生成的得分图S能够捕捉输入图像中的对象区域，每个通道对应一个对象类别。对于显著性检测，我们并不特别关注对象类别，只是希望发现所有类别的显著对象区域。为了获得这样一个与类别无关的显著图，可以简单地对所有通道的类别得分图进行平均。然而，存在两个潜在问题。首先，得分图不同通道的响应值往往服从不同尺度的分布。通过简单地对所有通道进行平均，一些对象（部分）的响应将被其他通道中具有更高响应的区域所抑制。因此，生成的显著图要么受到背景噪声的干扰（图3（a）），要么无法统一突出显示对象区域（图3（b-d））。更重要的是，由于得分图的每个通道都是训练来专门捕捉训练集中特定类别的，它们很难推广到未见过的类别（图3（e））。

前景推断网络（FIN）通过以一种合理的方式整合得分图S的特定类别响应来缓解上述问题。FIN的基本架构由一系列卷积层和一个sigmoid层组成。它以图像X作为输入，并预测一个子采样的显著图F=[Fi,j]n×n。通过最后的sigmoid层，每个元素Fi,j在[0,1]范围内，表示子采样像素的显著程度。

在弱监督学习中，没有提供直接用于训练FIN的真实显著性图。因此，我们提出了一种间接的方法来联合训练FIN和FCN1进行图像标签预测。给定训练样本{X，l}。输入图像X通过FIN和FCN进行前向传递，分别得到前景显著图F∈Rn×n和得分图S∈Rn×n×C。在得分聚合之前，我们使用前景显著图对得分图的每个通道进行遮罩处理：

其中Sk表示得分图S的第k个通道；表示逐元素相乘；Sˆk表示遮罩处理后的得分图S的第k个通道。然后，使用提出的GSP对Sˆk进行得分聚合，以预测第k个类别的图像级得分sˆk。然后通过最小化损失函数L(l,sˆ)来联合训练FIN和FCN。主要动机如下。得分图S的每个通道通过空间高响应突出显示一个对象类别的区域。为了保留遮罩处理后得分图Sˆ中的这些高响应，需要激活所有类别的对象区域的显著图F。类似的想法也可以在注意力模型[51]和卷积特征遮罩层[6]中找到。[51]中的注意力模型采用GAP来聚合遮罩特征，而我们探索了GSP。在[6]中，每个遮罩是由自底向上的区域提议方法[45]生成的，用于描述一个对象候选区域。相比之下，我们的目标是通过弱监督学习FIN来自动推断所有类别的显著图。

然而，人们可能仍然担心FIN可以轻松学习到在所有位置都具有高响应的平凡解。为了防止这种平凡解，我们添加了一个额外的正则化项，其中f表示显著图F的向量化版本。第一项鼓励F在前景区域具有高响应，而第二项惩罚F在背景区域具有高响应；λ是预定义的平衡参数。注意，在（6）中的正则化项是施加在特征表示上而不是权重参数上的，这让人想起最近的一项工作[12]，其中使用对特征的L1正则化来强制实现更好的从低次学习中的泛化能力。相比之下，我们的目标是产生准确的显著图，并减少背景噪声。

另一个长期存在的问题是，FIN在固定的类别集上训练可能在推广到未见过的类别时遇到困难。为了解决这个问题，我们将遮罩操作（5）应用于中间得分图而不是最终得分图（参见第3.3节）。中间得分图不直接对应对象类别，正如[11]确认的那样，它主要编码中级模式，例如红色斑点、三角形结构、特定纹理等，这些模式在描述所有类别时都是通用的。因此，FIN可以捕捉到无关类别的显著区域，能更好地推广到未见过的类别。

图3. FIN输出与平均得分图之间的比较。平均得分图具有噪声背景响应（a），无法均匀突出前景（b-d），并且无法推广到未见过的类别（e）。

图4. 网络架构概述。在第一阶段，我们联合训练FCN和FIN（b-e）进行图像分类（f）。在第二阶段，FIN（b，d）被训练用于显著性预测（g）。

3.3.基于图像级标签的预训练

我们现在正式描述所提出的弱监督训练方法的第一阶段。我们在ImageNet目标检测数据集上训练网络，该数据集包含200个对象类别的456k个训练样本。仅利用训练图像的图像级别标签，而边界框注释被丢弃以保证公平性。与每个图像中只有一个注释类别的图像分类数据集相反，检测数据集中的训练图像通常包含来自不同类别的多个对象。因此，对象检测数据集更适合解决显著性共现问题[3]。

网络架构。图4概述了网络架构。如第3.2节所讨论的，用于显著图预测的FIN和用于类别得分图预测的FCN是联合训练的。由于两个网络有高度相关的任务，它们可以共享卷积特征进行训练。具体而言，我们设计了共享网络（图4（b）），遵循16层VGG网络[43]，包括13个卷积层和4个最大池化层之间的交错ReLU非线性层。FCN和FIN作为两个兄弟子网络构建在共享层之上。FCN由一个卷积层、一个BN [15]层和一个ReLU层组成。FCN不直接生成对象得分图，而是预测一个中间得分图（图4（c）），具有512个通道，对应中级类别无关模式。FIN由一个卷积层、一个BN层和一个sigmoid层组成，并推断出一个显著图F（图4（d）），然后用于对得分图进行遮罩，以获得遮罩得分图（图4（e））。GSP层用于将遮罩得分图中的空间响应聚合成一个512维的图像级得分，然后通过一个全连接层传递，生成200维的类别得分sˆ，用于200个对象类别。输出层是一个sigmoid层，将类别得分转换为类别概率p(k)=1+exp(1 −sˆk)。

训练细节。给定一个包含N个样本对{Xi,li}Ni=1的训练集，我们通过最小化以下目标函数来训练网络：

其中，θ表示网络参数；第一项和第二项是交叉熵损失，用于衡量预测准确性；第三项是对预测显著图f的L1正则化；最后一项表示权重衰减；λ和η分别设置为5e-4和1e-4。μ在式（3）中设置为10。共享层的权重参数使用预训练的VGG模型[43]进行初始化，而其他层的权重则使用[13]中的方法进行随机初始化。所有输入图像都被降采样到固定分辨率为256×256。FIN的步幅为16个像素，导致输出的显著图为16×16。我们使用批量随机梯度下降（SGD）来最小化上述目标函数，批量大小为64，动量为0.9。学习率初始化为0.01，并在每20个epoch时按0.1的因子进行衰减。

3.4.使用估计得像素级标签进行自训练

在预训练之后，由FIN生成的粗略显著图已经能够捕捉前景区域。在第二个训练阶段，我们通过在两个步骤之间迭代来对预测进行细化：a)使用训练好的FIN估计真实显著图，b)使用估计的真实显著图对FIN进行微调。为了提高输出分辨率，我们对FIN的架构进行了两个修改（参见图4）。首先，在第14个卷积层之上构建了三个附加的反卷积层，其中前两个层具有×2的上采样因子，最后一个层具有×4的上采样因子。其次，受到[33]的启发，在前两个反卷积层之后分别添加了从第7个和第10个卷积层引出的两个跳跃连接，以将具有语义意义的高级特征与具有更细节的低级特征相结合。同时，为了保证估计的真实显著图的质量，采用了两种技术：i）使用提出的CRF进行细化，ii）使用对标签噪声具有鲁棒性的自举损失[41]进行训练。

使用提出的CRF进行细化。首先，将输入图像使用[8]中的方法进行超像素分割，得到一组超像素Z={z1,z2,...,zm}。每个超像素zi由其平均RGB和LAB特征描述。根据FIN估计的显著图F，如果超像素zi的像素的平均显著值大于0.5，则将其标记为前景（αi = 1），否则标记为背景（αi = 0）。分别使用两个高斯混合模型（GMM）学习前景和背景的外观，每个GMM包含K = 5个成分。为了细化显著性标签α={α1,α2,...,αm}，在这些标签上定义了一个二值全连接CRF，其能量函数如下：

其中，Ii和pi分别表示超像素zi的颜色特征和位置。ψp中的所有超参数都是根据[21]进行设置的。传统的CRF通过找到最优标签集α来解决能量函数。相比之下，我们提出了一种类似EM的过程，通过迭代更新GMM参数ω和最优标签集α。给定当前的最优α，我们通过学习前景和背景GMM的参数ω最小化（7）；当ω固定时，我们通过基于均场的消息传递来优化（7）以获得α。详细的过程在Algorithm 1中给出。在所有实验中，迭代次数设置为5次。在每次迭代中，进行T = 5次消息传递。通过联合更新GMM和标签，我们的算法对初始标签噪声更加鲁棒，能够得到更准确的细化结果。细化后，将每个超像素的标签分配给其所有像素，以获得一个细化的显著图R。

使用细化的显著图R作为估计的真实显著图来对扩展的FIN进行微调。为了进一步减少噪声标签的影响，我们采用了自举损失[41]进行训练：

其中，r和f分别是估计的真实显著图R和扩展FIN的输出显著图F的向量化版本；ai = 1（fi > 0.5）；i是像素索引；δ是权重参数，根据[41]设置为0.95。自举损失源自交叉熵损失，并通过将i）噪声标签ri和ii）FIN的当前预测ai的凸组合作为目标来强制执行标签一致性。我们使用小批量随机梯度下降（mini-batch SGD）来解决损失函数，批大小为64。预训练和新添加的FIN层的学习率分别初始化为1e-3和1e-2，并在每10个epoch后减小0.1。实际上，在“真实显著图估计” - “微调”两个迭代之后，自训练开始收敛。在测试时，扩展的FIN直接生成显著图，无需进行后处理。

图5.无监督方法的PR曲线（第一行）和完全监督方法的PR曲线（第二行）。提出的WSS显著优于无监督方法，并与完全监督方法相比表现出色。

4.实验

现有的基于深度神经网络的方法在训练和评估中都使用公共的显著性数据集，但缺乏一个明确的协议来选择训练和测试集。不同方法中使用不同的训练集导致了不一致和不公平的比较。此外，大多数现有数据集最初是为模型评估而构建的，对于训练非常复杂的深度神经网络来说，样本数量不足。为了促进公平比较和有效的模型训练，我们贡献了一个名为DUTS的大规模数据集，包含10553个训练图像和5019个测试图像。所有训练图像都是从ImageNet DET的训练/验证集[7]中收集来的，而测试图像则来自ImageNet DET的测试集和SUN数据集[50]。50名受试者手动注释了准确的像素级真实标签。该数据集可以在我们的网页上找到。据我们所知，DUTS目前是具有明确的训练/测试评估协议的最大的显著性检测基准数据集。为了在未来的研究中进行公平比较，DUTS的训练集可以作为学习深度神经网络的良好候选，而测试集和其他现有的公共数据集可以用于评估。

我们在DUTS的测试集和5个公共数据集（SED [2]，ECSSD [52]，THUR [5]，PASCAL-S [30]和HKU-IS [26]）上评估了我们的弱监督显著性（WSS）方法。我们将WSS与16种现有方法进行了比较，包括7种无监督方法：FT [1]，DSR [28]，HS [53]，MR [53]，wCtr [59]，MBS [56]，BSCA [40]；以及9种完全监督方法：DRFI [17]，HDCT [19]，LEGS [46]，MC [57]，MDF [26]，DS [29]，SELD [25]，DCL [27]，RFCN [49]。除了DRFI和HDCT，所有监督方法都是基于在ImageNet [7]分类任务上预训练的DNNs。按照现有的工作[53,46]，我们使用精度-召回（PR）曲线、Fβ度量和平均绝对误差（MAE）来评估所有方法。

4.1.性能比较

直接比较有监督和无监督方法是不公平的。因此，我们在每个设置中比较方法。我们将提出的WSS与两种设置中的方法进行比较，以更全面地了解它们。图5中的PR曲线和表1中的Fβ度量都显示，WSS始终以较大的优势优于无监督方法，并与完全监督的对应方法相比表现出色。同时，WSS的实时速度非常高，达到62.5 FPS，比有监督方法快8倍。需要注意的是，大多数显著性检测数据集包含大量不属于200个训练类别的对象。WSS的卓越性能证实了WSS能够很好地推广到这些未知类别。我们还进行了额外的评估来验证我们方法的泛化能力。由于篇幅有限，我们在补充材料中提供了对未知类别的定量和定性结果、PASCAL-S和ECSSD的MAE结果以及PR曲线。

表1.我们方法(WSS)、前4个无监督方法和前7个完全监督方法的Fβ度量。所有7个监督方法都使用由像素级标签监督的DNNs。粗体字表示每个设置中的最佳方法。速度位于最后一行。

4.2.消融研究

为进一步验证我们的主要贡献，我们比较了我们方法的不同变体。将FIN1表示为第一阶段预训练后的FIN的显著性预测（第3.3节），WSS1和WSS1-CRF分别表示通过提出的迭代CRF和具有固定一元项的基准CRF对FIN1进行了改进的结果。WSS1-GAP和WSS1-GMP分别表示通过使用GAP和GMP替换提出的GSP的WSS1的变体。WSS1-AVE表示通过将FIN输出替换为所有通道上分数图的平均值的WSS1的变体。在图6中展示了在5个数据集上的Fβ结果。此外，我们还重新实现了[39,20]中的池化方法，并将它们与GSP进行了比较。详细结果可以在补充材料中找到。

迭代CRF。WSS1在所有数据集上显著优于FIN1，表明在第二个训练阶段中，显著性地图的细化起着关键作用。同时，WSS1还在所有5个数据集上大幅提高了WSS1-CRF的性能，验证了提出的迭代CRF相对于基准CRF的有效性。

GSP与GAP和GMP的比较。在大多数数据集中，WSS1-GMP的性能高于WSS1-GAP，而采用提出的GSP的WSS1始终优于WSS1-GMP和WSS1-GAP，这表明GSP比GMP和GAP更适合弱监督学习。

FIN vs.平均分数图 WSS1-AVE的性能不如其他变体。即使是没有任何细化的FIN1也在4个数据集中显着胜过WSS1-AVE。这证实了之前讨论的使用平均分数图作为显著性估计的缺点（第3.2节），进一步证明了FIN的贡献。

图6.不同WSS变体的Fβ度量。

4.3.失败案例

由于我们的方法仅在图像级别标签上进行训练，因此在非常复杂的场景中，有时无法均匀地描绘物体区域。我们希望通过在未来探索各种形式的弱监督来缓解这个问题。

5.总结

本文提出了一种基于图像级弱监督的显著性检测的两阶段训练方法。在第一阶段，提出了两种新颖的网络结构，即GSP和FIN，通过学习预测图像级别的类别标签来估计显著性图。在第二阶段，使用估计的显著性图作为真实标签进一步微调FIN。还开发了一个迭代的CRF来细化估计的真实标签，并进一步提高性能。在基准数据集上进行了广泛的评估，验证了我们方法的有效性。