Anti-Adversarially Manipulated Attributions for Weakly and Semi-SupervisedSemantic Segmentation

摘要

在弱监督语义分割中,分类器产生像素级定位,但往往会将焦点局限在目标对象的小区域。AdvCAM是一种属性图,通过操纵图像以增加分类得分。这种操纵是以反对抗性的方式实现的,即沿着与对抗性攻击中使用的方向相反的像素梯度扰动图像。这种方法迫使最初被认为不具有区分性的区域参与后续分类,并生成逐步识别目标对象更多区域的属性图。此外,引入了一种新的正则化程序,抑制了与目标对象无关的区域的错误归因,并限制了已经具有高分数的区域的归因。在PASCAL VOC 2012测试图像上,我们分别实现了弱监督和半监督语义分割的mIoU为68.0和76.9,这代表了最新的技术水平。

代码可从GitHub - jbeomlee93/AdvCAM: Anti-Adversarially Manipulated Attributions for Weakly and Semi-Supervised Semantic Segmentation (CVPR 2021)获得。

  • 反对抗性方式:反对抗性方式是指一种与对抗性攻击相反的方法。在计算机视觉领域,对抗性攻击旨在通过对输入数据进行微小扰动,使深度神经网络产生错误的输出。而反对抗性方式则是通过操纵数据以提高分类得分或性能,而不是引起错误分类。

  • 属性图:属性图是指在图像处理或计算机视觉中,用于表示图像中不同区域对于特定类别的重要性或贡献的图像。属性图通常用于可视化模型对图像的分类或定位过程中关注的区域。

  • 对抗性攻击:对抗性攻击是指通过对输入数据进行微小的、人类难以察觉的扰动,来欺骗深度神经网络模型,使其产生错误的输出。这种攻击旨在揭示模型的脆弱性,以改善其鲁棒性和安全性。

  • 归因:在计算机视觉中,归因是指将模型的预测结果解释为输入数据中不同部分的贡献或重要性。属性图通常用于可视化归因过程,帮助理解模型是如何做出决策的。

 1. Introduction

语义分割涉及到为图像的每个像素分配语义标签。它是图像识别和场景理解中的一项重要任务。深度神经网络(dnn)在语义分割方面取得了巨大进展[8,22];但它们需要大量带有像素级标签的训练图像。准备这样的训练数据集是非常昂贵的:对平均包含2.8个对象的图像进行像素级标注,每张图像大约需要4分钟[4],而描绘复杂场景的单个大型(2048×1024)图像需要90分钟以上的像素级标注[9]。

在弱监督学习中,通过使用相对便宜的、不如像素级标签全面的注释来训练分割网络,从而实现了对像素级注释的需求。弱监督方法可以利用标注方式包括涂鸦、点、边界框和类别标签等。在这些标注方式中,用类别标签对图像进行标注大约需要20秒,因此是最廉价的选择。此外,许多公共数据集已经用类别标签进行了注释,而自动网络搜索也可以提供带有类别标签的图像,尽管这些标签的准确性可能较低。考虑到这些因素,类别标签成为了最受欢迎的弱监督形式。

大多数使用类标签的弱监督分割方法依赖于从训练过的分类器获得的属性图[45,63]。这样的地图识别了分类器集中的图像区域。然而,这些重要的或判别性的区域相对较小,并且大多数归因图并不能代表目标对象所占据的整个区域,这使得这些归因图不适合训练语义分割网络。因此,许多研究人员尝试通过操作图像 [32, 49, 56] 或特征映射 [21, 29, 62] 来扩展区域,以覆盖目标对象的更多部分。

两种常见的图像操纵方法:擦除(erasure)和随机扰动(stochastic perturbation)。

  1. 擦除(Erasure):这种方法通过强制分类器找到目标对象的新区域,其中之前位于的区分性区域已被移除。擦除是一种有效的方法,但它通常需要修改网络,通常是通过添加额外的层或额外的训练步骤。擦除的一个困难之处在于提供可靠的迭代擦除终止条件;如果图像的区分性区域被擦除,可能会导致深度神经网络(DNN)错误分类该图像。如果从中擦除了区分性区域的图像越过图1(a)决策边界,可能会生成错误的属性图。

  2. 随机扰动(Stochastic Perturbation):这是另一种图像操纵方法,如图1(b)所示。FickleNet通过对DNN的特征图应用随机丢弃(random dropout),并将它们聚合成一个统一的属性图,以使属性图从图像中多样化。

因此,这些方法旨在通过操纵图像或特征图来改善属性图的质量,以便更好地训练语义分割网络。

"擦除"指的是从图像中移除已经被分类器识别为目标对象的区域。这种操作的目的是为了挑战分类器,使其重新寻找新的区域来识别目标对象,而不是依赖于之前已经确定的区域。通过擦除已经分类好的区域,可以促使分类器更全面地理解目标对象的不同部分,从而提高语义分割的准确性和鲁棒性。

 图1:弱监督语义分割图像处理方法的概念描述:(a)擦除[21,56,62];(b) FickleNet [29];(c) AdvCAM。(d)从迭代处理图像获得的连续归因图示例。

我们提出了一种新的操作方法来扩展目标对象的区分区域。我们的方法是基于对抗性攻击[16,28],但具有良性目的。对抗性攻击发现图像的一个小扰动,将其推过决策边界以改变分类结果。相比之下,我们的方法以反对抗性的方式运作,即对抗性攻击的逆转。它的目的是找到一个扰动,使被操纵的图像远离决策边界,如图1(c)所示。这种操作是通过对抗爬升来实现的,其中图像沿着像素梯度被扰动,从而提高目标类的分类分数。结果是,与该类别相关的非判别性区域逐渐参与分类,因此被操纵图像的CAM识别出物体的更多区域。图1(d)显示了通过迭代应用这种操作技术获得的cam示例。

非判别性区域指的是在图像中与目标对象相关但不具有明显区分性的区域。换句话说,这些区域可能与目标对象相关,但在传统的分类任务中可能不被认为是决定性的或者不被视为具有分类价值的特征区域。在语义分割和目标检测等任务中,了解和利用这些非判别性区域对于提高模型的性能和准确性至关重要。

梯度的上升保证了分类分数的提高,但重复的上升可能会导致不相关的区域,比如其他物体的部分背景或区域被一起激活,或者目标物体的某些部分的归属分数急剧提高。我们可以通过引入正则化项来解决这些问题,这些正则化项抑制了其他类的分数,并限制了已经有高分的区域的归属分数。通过这种方法对图像进行迭代处理后得到的属性图可以作为伪真值掩模,以弱监督和半监督的方式训练语义分割网络。

我们的方法是对训练好的分类器进行事后分析,可以在不修改的情况下提高现有方法的性能,从而在弱监督和半监督语义分割的PASCAL VOC 2012基准测试中获得新的性能

本文的主要贡献有三个方面:

  • 我们提出了AdvCAM,这是一种图像的属性图,可以通过操作来提高分类分数,从而使其能够识别物体的更多区域。
  • 我们的经验证明,我们的方法提高了几种弱监督语义分割方法的性能,而不需要修改或重新训练它们的网络。

  • 在弱监督和半监督语义分割方面,我们的技术在Pascal VOC 2012基准测试上的性能明显优于现有方法。

 2. Related Work

2.1. Weakly Supervised Learning

现有的弱监督语义分割方法的目的是通过获得一个改进的初始种子来找到目标物体所占据的整个区域,该种子包含了目标物体所占据的区域的良好近似值,并使该区域不断扩大,从而识别出更多的目标。

获得高质量的种子:

  • Wang等人[55]使用等变正则化(equivariance regularization)来训练他们的分类器,以使从不同变换图像中获得的属性图(attribution maps)在这些变换下保持等变性。这意味着无论对图像进行何种变换,得到的属性图都能够保持一致性。

  • Chang等人[6]通过使用潜在语义类别(latent semantic classes)来改善特征学习,这些类别是已注释父类别的子类别,可以通过对图像特征进行聚类来伪标记。这种方法利用潜在的语义信息来提高初始种子的质量。

  • Fan等人[13]和Sun等人[52]通过考虑跨图像语义相似性和差异来捕获多个图像之间共享的信息。他们利用图像之间的语义相似性和差异性来改善初始种子的质量。

  • Wei等人[57]和Lee等人[31]通过结合来自不同扩张卷积或不同深度神经网络层的多个属性图,从多个上下文中考虑目标对象。这种方法利用不同层次和不同卷积方式得到的属性图来更全面地理解目标对象。

增长对象区域: 一些研究人员使用类似于区域生长的方法,通过检查每个像素的邻域来扩展初始CAM[63]种子。语义标签从可以自信地与目标对象相关联的区域传播到最初不明确的区域。SEC[27]和DSRG[23]从包含模糊区域的初始CAM种子开始,在分割网络的训练过程中为这些模糊区域分配伪标签。PSA[2]和IRN[1]通过随机游走将目标区域扩展到语义相似的区域。BEM[7]从CAM合成伪边界,然后与PSA[2]使用类似的传播。

2.2. Semi-Supervised Learning

在半监督学习中,使用少量带有像素级注释的图像,结合大量带有弱标注或没有标注的图像来训练分割网络。交叉一致性训练(CCT)[41]涉及使用未标记或弱标记图像对分割网络进行训练,通过施加不同扰动(例如注入随机噪声)来保持预测的不变性。Souly等人[51]通过使用生成对抗网络合成的图像改进特征学习。Hung等人[24]采用对抗训练方案,缩小预测分割图与ground-truth maps.之间的分布差距。

对抗网络(Generative Adversarial Networks,GANs)是一种深度学习模型,由生成器(Generator)和判别器(Discriminator)组成。GANs 的核心思想是让生成器和判别器相互博弈,使得生成器能够生成逼真的样本,而判别器能够区分真实样本和生成样本。生成器的目标是生成与真实样本类似的数据,以尽量欺骗判别器;而判别器的目标是尽可能准确地区分生成样本和真实样本。通过这种对抗的过程,生成器不断提升生成样本的质量,从而使得生成的样本更加逼真。

 2.3. Adversarial Attack

对抗性攻击的方法试图通过向DNN提供带有欺骗意图的操纵输入来欺骗它。对抗性攻击可以应用于分类[16,39]、语义分割[3]和目标检测[59]。欺骗性归因图也可以通过对抗性图像处理[11]或模型参数处理[19]产生。这种攻击的目的是用一个虚假的地图取代一个归属地图,它突出了同一图像中的另一个位置,而不会显著改变DNN的输出。这些方法感兴趣的是操纵图像来引起神经网络的意外行为。相比之下,我们感兴趣的是找到对输入图像的适当处理,这样产生的属性图可以更好地覆盖目标对象。

对抗性攻击的方法旨在通过向深度神经网络(DNN)提供带有欺骗意图的操纵输入来欺骗它。这种攻击可以应用于不同任务,如分类、语义分割和目标检测。对抗性攻击的目的是通过操纵输入数据,使得神经网络产生错误的输出,从而揭示模型的脆弱性和不稳定性。

在这种攻击中,提到了欺骗性归因图(deceptive attribution maps)可以通过对抗性图像处理或模型参数处理来产生。这些欺骗性归因图的目的是用一个虚假的地图取代一个真实的归属地图,从而引导模型在预测时产生错误的结果。这种攻击方法的关注点在于如何操纵输入数据,以引起神经网络的意外行为,从而揭示模型的弱点和漏洞。

总的来说,对抗性攻击是一种测试和评估深度学习模型鲁棒性和安全性的方法,通过引入具有欺骗性的输入数据来挑战模型的稳健性,以便改进模型的防御机制和提高其在面对恶意攻击时的表现。

3. Proposed Method 

我们将在3.1节更仔细地研究对抗性攻击方法和类激活图。在第3.2和3.3节中,我们介绍了AdvCAM并解释了我们如何为弱监督语义分割生成伪基础真值。最后,我们将在第3.4节中展示如何使用生成的伪真值训练语义分割网络

3.1. Preliminaries

更详细的对抗性攻击:对抗性攻击旨在找到一个小的像素级扰动,可以改变DNN的输出。换句话说,给定一个输入x,它发现扰动n满足NN(x) ≠ NN(x + n),其中NN(·)是神经网络的输出。构造n的一种代表性方法[16]是考虑NN的决策边界的法向量,这可以通过求NN相对于x的梯度来实现,然后得到一个被操纵的图像x’:

公式一中的对抗攻击过程旨在通过微调输入图像,使得分类器更倾向于将输入图像分类为目标类别,从而产生更多的目标区域。这种对抗攻击的效果与对抗爬升的效果有一定的相似之处,但也有一些区别:

  • 公式一中的对抗攻击是通过微调输入图像来引入微小的扰动,以改变分类结果,使得分类器更倾向于将图像分类为目标类别,从而产生更多的目标区域。这种方法旨在揭示神经网络的脆弱性和不稳定性,通过引入扰动来改变分类结果,从而识别更多的目标区域。

  • 对抗爬升是一种迭代的过程,通过在特征图上进行梯度上升来调整输入图像,使得分类器更加关注目标区域,从而生成更准确的类激活映射。对抗爬升的目的是通过调整输入图像,使得分类器更好地识别目标区域,提高类激活映射的质量和准确性。

因此,公式一中的对抗攻击和对抗爬升虽然都是通过调整输入图像来影响分类器的行为,但其具体的目的和效果略有不同。对抗攻击旨在通过微调图像来引入扰动,使得分类器更倾向于将图像分类为目标类别,从而产生更多的目标区域;而对抗爬升是通过迭代调整输入图像,使得分类器更关注目标区域,生成更准确的类激活映射。

其中ξ决定了图像变化的程度。这个过程可以理解为梯度下降。

在公式中,x′ 表示经过操纵后的图像,x 是原始输入图像,ξ 是控制操纵程度的参数,

∇x​NN(x) 表示对神经网络 NN 关于输入 x 的梯度。

具体来说,公式中的操作是通过在输入图像 x 上沿着梯度的反方向进行一定程度的调整,从而生成一个新的图像 x′。这个调整的过程可以被理解为在输入空间中进行梯度下降

在对抗性攻击中使用梯度下降的原因与模型的决策边界有关。梯度下降是一种优化算法,它通过迭代调整参数来最小化目标函数。在对抗性攻击的背景下,目标函数变成了使得模型输出错误分类结果的条件。具体来说:

  1. 决策边界:在深度神经网络中,决策边界是分隔不同类别的分界线。在特征空间中,这个边界由模型的权重和偏差参数定义。当输入数据点位于决策边界附近时,模型对其分类的置信度较低。

  2. 梯度信息:模型输出相对于输入的梯度(即雅可比矩阵或梯导数)提供了输入特征对输出结果影响的方向和大小。在对抗性攻击中,攻击者计算输入图像相对于模型输出的梯度,以确定如何通过微小的扰动来改变模型的预测。

  3. 越过决策边界:攻击者的目标是找到输入图像的一个微小扰动 �δ,使得模型将输入图像从正确的类别误分类到另一个类别。通过沿着增加错误类别得分最快的方向(即目标类别得分梯度的方向)添加扰动,攻击者可以有效地将输入图像推向决策边界,并越过它,从而导致错误的预测。

Class Activation Map (CAM): 

CAM(Class Activation Map,类激活映射)用于识别分类器所使用的图像区域。CAM是根据特征图的每个通道对分类分数的类别特定贡献计算得出的。它基于一个具有全局平均池化(GAP)层的卷积神经网络,在最后的分类层之前使用。对于一个图像x,可以按以下方式计算其类激活映射CAM(x):

 其中wc为c类最终分类层的权值,f(x)为x在GAP之前的特征映射。

CAM弥补了图像级和像素级注释之间的差距。然而,CAM获得的区域通常比目标物体的全部范围小得多,因为小的判别区域为分类提供了足够的信息。

CAM(Class Activation Map,类激活映射)是一种技术,用于确定在图像中哪些区域对于神经网络分类器做出特定分类决策起到关键作用。CAM通过计算特征图中每个通道对于特定类别分类分数的贡献来生成。这种方法基于卷积神经网络(CNN),在网络结构的最后一个卷积层之后添加全局平均池化(GAP)层,然后连接到分类层。在这个过程中,CAM可以将图像中的重要区域与特定类别的分类决策联系起来。

具体来说:

  1. CAM用于识别分类器所使用的图像区域:CAM的主要作用是确定在输入图像中哪些区域对于神经网络分类器做出特定分类决策至关重要。通过CAM,可以可视化出神经网络在进行分类时所关注的区域,从而更好地理解网络的决策过程。

  2. 基于一个具有全局平均池化的卷积神经网络:全局平均池化是一种池化操作,它对每个特征图通道的所有像素进行平均,得到一个单一的值。在CAM中,全局平均池化层用于将最后一个卷积层的特征图转换为一个具有与类别数相同数量的通道,以便计算每个通道对于特定类别的贡献。

  3. 在分类层之前使用:CAM是在最后一个卷积层之后添加全局平均池化层之后,连接到分类层之前生成的。CAM(Class Activation Map)是在全局平均池化(GAP)之前生成的。这样设计的目的是为了通过特征图的空间信息来确定图像中与特定类别相关的区域,从而提高对于分类决策的解释性和可视化能力。

3.2. AdvCAM

3.2.1 Adversarial Climbing

AdvCAM是通过对抗爬升获得的归属图,这是一种反对抗技术,通过对图像进行操作,从而提高图像的分类分数,从而使分类器识别出更多的目标区域。这与基于Eq. 1的对抗性攻击相反,后者对图像进行操作以降低分类分数。受PGD[28]的启发,初始图像x^{0}的迭代对抗爬升可以使用以下关系进行:

PGD(Projected Gradient Descent)是一种常用的对抗性攻击方法,用于生成对抗性样本。PGD攻击通过在输入数据上应用梯度下降的方式,引入微小的扰动,以欺骗深度学习模型产生错误的分类结果。

具体来说,PGD攻击的步骤如下:

  1. 初始化:给定原始输入样本x和目标类别ytarget​,以及扰动大小ϵ和迭代次数T。

  2. 迭代优化:通过多次迭代来生成对抗性样本xadv​:

    • 在每次迭代中,计算损失函数对输入数据的梯度。
    • 根据梯度信息,对输入数据进行微小的扰动,使得损失函数增大,从而导致模型产生错误的分类结果。
    • 为了确保对抗性样本在ϵ的范围内,对扰动进行投影(即将扰动限制在一定范围内)。
  3. 生成对抗性样本:经过多次迭代后,得到最终的对抗性样本xadv​,该样本在视觉上与原始样本相似,但能够欺骗模型产生错误的分类结果。

PGD攻击是一种强大且有效的对抗性攻击方法,常用于评估深度学习模型的鲁棒性和安全性。通过引入微小的扰动,PGD攻击揭示了深度学习模型在面对对抗性样本时的脆弱性,有助于改进模型的鲁棒性和防御对抗性攻击。

其中,t(1 ≤ t ≤ T)是对抗步骤索引,x_t 是第 t 步的操纵图像,而y_{t-1}^c 是类别 c 在图像 x_{t-1} 上的分类逻辑回归。

分类逻辑回归是一种常用的机器学习算法,用于解决二分类或多分类问题。它是一种线性模型,其目标是根据输入特征预测样本属于不同类别的概率。分类逻辑回归使用逻辑函数(也称为 Sigmoid 函数)将线性函数的输出转换为概率值,并且通常使用最大似然估计来拟合模型参数。

在二分类问题中,逻辑回归模型的输出表示样本属于某个类别的概率。通常,当输出概率大于某个阈值时,模型将样本分类为正类别(1),否则分类为负类别(0)。

在多分类问题中,通常采用一对多(One-vs-Rest)或一对一(One-vs-One)的策略来处理。在一对多策略中,为每个类别训练一个二分类逻辑回归模型,用于将该类别与其他所有类别区分开来。在一对一策略中,为每对类别训练一个二分类逻辑回归模型,用于将这两个类别区分开来。

总的来说,分类逻辑回归是一种简单而有效的分类算法,特别适用于线性可分或近似线性可分的数据集。

公式3表示在每个阶段 t,通过在上一阶段的图像 x_{t-1} 上应用梯度上升的方法,使得目标类别 c 的分类得分逐渐增加,从而改善神经网络对目标对象的识别。通过迭代这个过程,可以逐步改善属性图的质量,使其更好地覆盖目标对象的区域。

梯度上升(Gradient Ascent)是一种优化算法,与梯度下降相反,它的目标是最大化一个函数,而不是最小化。在深度学习中,梯度上升通常用于调整输入数据,以使得神经网络对特定类别的分类得分增加。在公式3中,通过应用梯度上升的方法,可以使得目标类别 c 的分类得分逐渐增加。这是因为梯度上升的方向是函数值增加最快的方向,通过沿着梯度的方向调整输入数据,可以使得神经网络更倾向于将输入数据分类为目标类别 c。

目标类别 c 是在对抗性爬升过程中事先确定的,通常是用户希望神经网络正确分类的类别。通过调整输入数据,使得神经网络对目标类别 c 的分类得分增加,可以改善神经网络对该类别的识别能力。因此,梯度上升的目标是通过调整输入数据,使得神经网络更好地识别特定类别的目标对象。

在梯度上升(Gradient Ascent)中,通过沿着梯度的方向调整输入数据,可以使得神经网络对特定类别 c 的分类得分逐渐增加。下面是梯度上升增加目标类别 c 得分的具体过程:

  1. 初始化:首先,选择一个输入图像 x,并将其输入神经网络进行前向传播,得到对目标类别 c 的分类得分 y^c。

  2. 计算梯度:计算目标类别 c 的分类得分 y^c 对输入图像 x 的梯度 ∇_x y^c。这个梯度表示了在当前输入图像 x 下,目标类别 c 的分类得分增加最快的方向。

  3. 调整输入:根据梯度的方向,对输入图像 x 进行调整,使得目标类别 c 的分类得分增加。调整的方式通常是沿着梯度的方向加上一个小的步长,即 x_new = x + η * ∇_x y^c,其中 η 是学习率。

  4. 重复迭代:重复上述步骤,多次迭代调整输入图像 x,直到目标类别 c 的分类得分达到满意的水平或达到一定的迭代次数。

通过这个过程,梯度上升可以逐步调整输入图像,使得神经网络更倾向于将输入图像分类为目标类别 c,从而增加目标类别 c 的分类得分。这种方法可以用于生成对抗性样本、优化输入以增强特定类别的特征等应用场景。

在对抗性爬升(adversarial climbing)的过程中,先前被认为是非判别性的但与目标类别相关的特征会逐渐参与到分类过程中。通过这个过程,通过迭代调整输入图像,可以预期得到的属性图(CAMs)会逐渐识别出目标对象的更多区域。在这个过程中,作者通过对每个迭代步骤中调整后的图像生成属性图(CAM),然后将这些CAM聚合起来,产生一个称为本地化图(localization map)A。这个本地化图A综合了每个迭代步骤中得到的属性图,从而反映了整个对抗性爬升过程中对目标对象区域的识别情况。通过这种方式,可以逐步改善属性图的质量,使其更好地覆盖目标对象的区域。

3.2.2 How can Adversarial Climbing Improve CAMs?

分类得分(classification logit)yc 与属性图(CAM)之间的关联,即yc = GAP(CAM),表明对抗性爬升(adversarial climbing)会增加分类得分yc,从而增强CAM。在这个过程中,参与分类的特征会得到增强。为了更好地理解对抗性爬升如何生成更密集的CAM,有两个问题:

  •  非判别性特征是否可以被增强? 这个问题探讨了在对抗性爬升过程中,原本被认为是非判别性的特征是否可以通过调整输入图像而得到增强。即使某些特征在原始图像中可能不具有判别性,但通过对抗性爬升可能会使这些特征变得更加重要,从而提高分类性能。
  • 这些增强的特征是否从人类角度来看与类别相关? 这个问题考虑了通过对抗性爬升生成的增强特征是否与人类对目标类别的认知相关。即,这些特征是否在视觉上与目标类别的特征相符合,从而使得CAM更好地反映目标对象的区域。

 问题一:非判别性特征是否可以被增强?改变具有较大梯度的像素可能主要增强判别性特征,由于感受野的影响,这种像素变化会影响许多特征。然而,并非所有受影响的特征都必然具有判别性。作者通过实证分析支持了这一观点。他们定义了判别性区域R_{D}=\left \{ i|CAM(x^{0})_{i}\geq 0.5 \right \} 和非判别性区域R_{ND}=\left \{ i|0.1< CAM(x^{0})_{i}< 0.5 \right \},其中i是位置索引。像素放大比例s_{t}^{i}是位置i和步骤t处的CAM(x^{t})_{i}/CAM(x^{0})_{i}。图2(a)显示,对抗性爬升使得判别性区域RD和非判别性区域RND的s_{t}^{i}都增长,但对非判别性特征的增强要比判别性特征更多,从而导致CAM更加密集。简而言之,这段描述说明了在对抗性爬升过程中,虽然改变像素可能会影响多个特征,但并非所有受影响的特征都具有判别性。实证分析表明,对抗性爬升更倾向于增强非判别性特征,从而使得CAM更加密集,反映了对目标对象的更广泛识别。

 图2:对于 100 张图像,区分性区域 RD 和非区分性区域 RND 的像素放大比率s_{t}^{i} 的分布,(a) 未进行正则化,(b) 进行了正则化。

在对抗性爬升中,通过逐步调整输入图像的像素值,使得分类得分增加,从而增强属性图中的特征。像素放大比例可以帮助衡量在对抗性爬升过程中每个像素值的变化程度,以了解哪些特征得到了增强,哪些特征可能受到了影响。通过分析像素放大比例,可以更好地理解对抗性爬升如何影响属性图的生成和特征的增强过程。

对抗爬升(Adversarial Climbing)是一种反对抗性技术,用于通过操纵图像以增加其分类得分,从而使分类器能够识别更多目标对象的区域。与对抗攻击相反,对抗爬升的目标是通过沿着像素梯度的反方向对图像进行微调,以增加分类器对该图像的分类得分。这种方法旨在逐步使最初被认为不具有区分性的区域参与到后续的分类中,从而使属性图逐渐识别出目标对象的更多区域。

问题二:从人类的角度来看,这些增强的功能与类相关吗?Moosavi等人[40]认为,对于输入而言,损失函数曲率急剧变化会使神经网络容易受到对抗性攻击。研究人员随后表明,通过减少损失曲面的曲率[40]或鼓励损失函数呈线性行为[43]来获得平坦的损失曲面,可以提高神经网络的鲁棒性。在这种意义上表现出鲁棒性的系统已被证明能够产生更符合人类感知的特征,并以更易理解的方式运作[25, 44, 54]。

通过对抗性爬升处理的图像可能会产生与人类感知相符的特征,因为对抗性爬升影响的损失曲面曲率较小。为了支持这一点,作者通过可视化他们训练的分类器的损失曲面,按照Moosavi等人的方法[40]:从图像计算的分类损失中获得一个操纵向量\vec{n}和一个随机向量\vec{r}我们确定了通过在n和r之间的插值比例范围内使用向量操纵的图像计算的分类损失值的曲面。(这句话的意思是,作者通过在操纵向量(n)和随机向量(r)之间进行插值,生成一系列介于这两个向量之间的新向量,然后使用这些新向量对图像进行微小调整,计算每个调整后图像的分类损失值。通过这种方法,作者可以获得一系列不同程度的图像扰动,从而观察不同程度扰动对分类损失值的影响,进而了解对抗性爬升过程中图像调整的效果。这种方法有助于分析和理解对抗性爬升如何影响图像的分类结果和损失值。)通过对抗性爬升获得的损失曲面(图3(a))比通过对抗性攻击获得的损失曲面(图3(b))更加平坦。因此,我们可以合理地期望对抗性爬升会增加与人类视角下相关的特征的归因,从而产生更好的CAM(类激活图)。

操纵向量和随机向量是用于对图像进行扰动以进行对抗性爬升的关键元素。

  • 操纵向量(Manipulation Vector):操纵向量通常是根据分类损失计算得到的,用于指导对图像进行微小调整以增加目标类别的分类得分。在对抗性爬升中,操纵向量指示了在像素级别上应该如何调整输入图像,以使得神经网络更好地识别目标对象的各个部分。

  • 随机向量(Random Vector):随机向量是一种随机生成的向量,通常用于引入一定程度的随机性和多样性,以避免算法陷入局部最优解或过度依赖特定的梯度信息。在对抗性爬升中,随机向量可能被用来增加算法的鲁棒性,使得对图像的微小调整更具多样性和泛化性。

这些向量在对抗性爬升过程中起着重要作用,帮助调整输入图像以增加目标类别的分类得分,从而改善神经网络的性能和准确性。

操纵向量(manipulation vector)通常是指在对抗性攻击中用于扰动输入数据的向量,其目的是改变输入数据以欺骗深度学习模型。操纵向量的生成方法可以涉及梯度的反方向,但并不总是梯度的反方向。

在对抗性攻击中,操纵向量的生成通常涉及以下步骤:

  1. 计算梯度:首先,计算损失函数对输入数据的梯度。梯度表示了损失函数在当前输入数据点的变化率,指导了模型参数的更新方向。

  2. 操纵向量生成:操纵向量可以根据梯度的方向和大小来确定。一种常见的方法是沿着梯度的反方向或梯度的方向添加一个小的扰动,以改变输入数据,使得模型产生错误的分类结果。

  3. 应用操纵向量:将操纵向量应用于原始输入数据,生成对抗性样本。通过在原始数据上添加操纵向量,可以使得模型在对抗性样本上产生错误的分类结果。

因此,操纵向量的生成可以涉及梯度的反方向,但并不局限于此。操纵向量的设计取决于具体的对抗性攻击方法和攻击策略,旨在最大程度地扰乱模型的分类结果。在某些情况下,操纵向量可能与梯度的反方向相关,但在其他情况下,可能会引入额外的扰动或变换以实现特定的攻击目的。

作者提出的方法是通过对输入图像进行操纵,使得分类器对目标类别的分类得分增加,从而使分类器能够识别更多目标对象的区域。这种操纵是通过“adversarial climbing”实现的,该方法是一种反对抗性攻击的技术,旨在使操纵后的图像远离决策边界,而不是朝向决策边界,以改善分类结果。

 图3:使用操纵向量\vec{n}和随机向量\vec{r}的加权和来操纵图像,然后观察对图像进行微小调整后的损失景观。(a)对抗性爬升和(b)对抗性攻击。黄色的星星对应于原始图像。

损失景观(Loss Landscape)是指在机器学习中用来描述损失函数的多维空间。在这种情况下,作者通过对图像进行微小调整并计算损失值,可以观察损失函数在图像空间中的变化情况。通过可视化损失景观,可以更好地理解对抗性爬升和对抗性攻击对图像分类结果和损失值的影响。损失景观的形状和特征可以帮助研究人员了解模型的鲁棒性、局部最优解以及梯度信息对模型性能的影响。

3.3. Regularization 

通过对抗性爬升得到的损失曲面相对平坦,但过多的重复对抗性操纵可能会导致与错误类别中的对象对应的区域被激活,或者增加已经具有高分数的区域的归因分数。为了解决这个问题,我们采取了以下两种方法:

  • 抑制与其他类别相关的logit值:通过减少与目标类别以外的所有类别相关的logit值,可以避免错误类别的区域被错误激活。
  • 限制对目标对象的区分性区域的高归因:作者限制了对目标对象中已经具有高分数的区域的归因分数,以确保这些区域的归因分数保持在合理范围内,避免过度激活这些区域。

抑制其他类: 在一个图像中,不同类的对象可以相互增加logit值。例如,由于椅子和餐桌主要是一起出现在图像中,因此神经网络可能会从桌子的区域推断出椅子的logit值增加。因此,我们添加了正则化,减少了除c以外所有类的logit值。

限制高归因:如3.2.2节所述,对抗性爬升增加了特征图中判别区域和非判别区域的归因分数。然而,判别区域归因分数的增长存在两个问题:1)它阻止了新的区域被附加到分类分数中;2)如果在对抗爬升过程中归因分数的最大值增加,则剩余区域的归一化分数可能会下降。请参见图4(b)中的蓝框。

图4: (a) 一张带有其类激活图(CAM)和限制掩码 M 的示例图像。(b) 初始 CAM 图像,以及经过 5、10 和 20 步对抗攀爬后的 CAM 图像,包括有和没有正则化的情况。

因此,我们限制了在对抗攀爬过程中得分较高的区域的归因分数,因此这些区域的归因分数保持与x^{0}相似。我们通过引入一个限制掩码M来实现该方案,该掩码M包含CAM(x^{t-1})的属性分数高于阈值τ的区域。更具体地说,M可以表示为: 

 其中\mathbb{I}(·)为指标函数。图4(a)显示了一个示例掩码M。

我们添加了正则化项,以确保限制掩码 M 区域对应的 CAM 值被强制等于 CAM(x^{0}) 的值。通过这种正则化,s_{t}^{i\epsilon R_{D}}保持相当恒定,但在对抗攀爬过程中,s_{t}^{i\epsilon R_{ND}} 仍然增长(见图 2(b))。图 2 显示,对抗攀爬增强了非判别性特征,而不是判别性特征(< 2×),而正则化使这种差异更大(> 2.5×)。因此,更有效地发现了目标对象的新区域,导致了更密集的 CAM(见图 4(b))。

正则化使得非判别性特征相对于判别性特征的增强程度是原始情况的2.5倍。

形成限制掩码M:使用指示函数1(·)来创建一个掩码,该掩码在CAM中的值高于阈值τ的像素位置处为1,在其他位置处为0。指示函数1(condition)在条件condition为真时返回1,否则返回0。

这里的1(·)是一个指示函数,它在条件成立时返回1,否则返回0。CAM(xt−1)是在对抗性爬升步骤t-1时的归因图,τ是一个预设的阈值,用于判断一个区域的归因分数是否“过高”。

为了应用正则化,我们将Eq. 3修改如下:

 C是所有类的集合,λ是控制屏蔽正则化影响的超参数,是元素乘法。

  • y_{c}^{t-1}:表示在 t-1 步骤中对类别 c 的分类 logit 值。
  • \sum _{k\epsilon C\setminus c}:表示对除了类别 c 之外的所有其他类别 k 的分类 logit 值的总和。
  • 最后一项是正则化项,λ 是控制正则化影响的超参数。M 是一个限制掩模,包含了在对抗性爬升过程中归因分数高于阈值 τ 的区域。∣CAM(xt−1​)−CAM(x0​)∣ 表示对抗性爬升过程中当前 CAM 与初始 CAM 之间的差异。∥⋅∥1​ 表示 L1 范数,用于计算向量的绝对值之和。

 3.4. Training Segmentation Networks

由于 CAM 是从分类器产生的下采样中间特征得到的,它粗略地定位目标对象,不能表示其精确的边界。许多生成弱监督语义分割的初始种子的方法通过修改其初始种子使用现有的种子细化方法[1, 2, 23]来构建伪地面真值。例如,SEAM [55] 和 Chang 等人 [6] 使用 PSA [2];MBMNet [36] 和 CONTA [60] 使用 IRN [1]。我们也将种子细化方法应用于粗略的地图 A。对于弱监督学习,我们将结果轮廓用于在 ImageNet 数据集[10] 上预训练的 DeepLab-v2 的伪地面真值进行训练。对于半监督学习,我们采用 CCT [41],它使用 IRN [1] 生成伪地面真值掩码;我们用刚刚描述的方法构建的掩码替换这些掩码。 

在弱监督学习中,作者使用生成的结果轮廓(即伪地面真值)来训练在 ImageNet 数据集上预训练的 DeepLab-v2 模型。这意味着他们利用通过弱监督学习生成的结果轮廓作为训练数据,以帮助 DeepLab-v2 模型学习语义分割任务。

在半监督学习中,作者采用了 CCT(Cross-Consistency Training)方法,该方法使用 IRN(Instance-wise Relevance Network)生成伪地面真值掩码。然后,作者使用他们描述的方法构建的掩码替换了这些由 IRN 生成的伪地面真值掩码。这意味着作者使用了他们提出的方法生成的更准确的掩码来代替原始的 IRN 生成的掩码,以提高半监督学习过程中的训练效果和模型性能。通过这种方式,他们能够更好地利用半监督学习的方法来改善语义分割任务的性能。

4. Experiments

4.1. Experimental Setup

数据集:我们在PASCAL VOC 2012[12]数据集上进行实验。该数据集中的图像带有用于完全监督语义分割的掩码,但我们仅将其用于评估。在弱监督设置下,我们在Hariharan等人[17]提供的10,582张具有图像级注释的训练图像上训练我们的网络。在半监督设置下,我们使用1464张带有像素级注释的训练图像和9118张带有类标签的训练图像,遵循之前的工作[29,37,41,57]。我们通过计算1449张验证图像和1456张测试图像的平均交叉过合(mIoU)值来评估我们的结果。由于测试图像的标签不是公开的,所以这些图像的结果是从官方PASCAL VOC评估服务器获得的。

可重复性:我们在T = 27和ξ = 0:008时进行了迭代对抗爬升。我们设置λ为7,τ为0.5。为了生成初始种子,我们遵循Ahn等人[1]的程序,包括使用ResNet-50[18]。对于最终的分割,我们使用DeepLab-v2-ResNet101[8]作为骨干网。我们遵循[8]的默认设置进行训练,其中包括将图像裁剪为321×321像素。在半监督设置中,我们使用与Ouali等人[41]相同的设置。

4.2. Experimental Results

掩模的质量:表1比较了我们的方法和其他最新技术获得的初始种子和伪地面真值掩模。种子和掩码都是由PASCAL VOC数据集的训练图像生成的。对于初始种子,我们报告了通过应用一系列阈值来分离地图a中的前景和背景的最佳结果,如下SEAM[55]。我们的初始种子比原始CAMs[63]好6.8%,CAMs提供了一个基线,这也优于其他方法。注意Chang等[6]和SEAM[55]使用了Wide ResNet-38[58],它比ResNet-50[18]提供了更好的表示。SEAM[55]还使用了一个辅助的自关注模块,该模块通过考虑像素之间的关系对初始CAM进行像素级的细化。我们将常用的后处理方法CRF应用于Chang等[6]、SEAM[55]、IRN[1]和我们的方法的初始种子。除SEAM外,CRF对种子的平均改良率均在5%以上,而对SEAM的改良率仅为1.4%。我们认为这是因为SEAM的种子已经被自关注模块提炼出来了。施用CRF后,我们的种子比SEAM好5.3%。

我们还比较了经过种子细化后提取的伪ground truth mask与现有方法。大多数方法使用PSA[2]或IRN[1]对其初始种子进行细化。为了进行公平的比较,我们使用这两种种子细化技术生成了伪地面真值掩模。表1显示,无论使用哪种种子细化技术,我们的方法都大大优于其他方法。

表1:mIoU(%)的初始种子(seed),带CRF的种子(+CRF),和伪ground truth掩码(mask)对PASCAL VOC 2012训练图像。

 弱监督语义分割:表2将我们的方法与最近引入的其他具有不同监督级别的弱监督语义分割方法进行了比较:完全监督像素级掩码(P),边界框(B)或图像类标签(I),有和没有显著对象掩码(S)。所有结果见表2使用基于resnet的骨干网获得[18]。仅使用图像级标注,我们的方法对PASCAL VOC 2012验证和测试图像的mIoU值分别为68.1和68.0。这明显优于同级监管下的其他方法。特别是,验证图像的mIoU值比IRN[1]的mIoU值高4.6%,这是我们的基线。CONTA[60]是竞争对手中表现最好的方法,mIoU值为66.1;但他们的方法依赖于SEAM[55],已知SEAM优于IRN[1]。如果使用IRN实现CONTA,则得到的mIoU值为65.3,比我们的方法差2.8%。图5给出了由flicklenet[29]、IRN[1]和我们的方法生成的语义掩码示例。

显著对象掩码(Salient Object Mask)是指在图像中标识出显著对象(Salient Object)的二值掩码。显著对象通常是指在图像中引人注目、与背景明显不同的对象或区域,吸引人们的注意力。显著对象掩码通常用于计算机视觉任务中,如目标检测、图像分割和图像理解等领域。生成显著对象掩码的方法可以是基于像素级别的显著性检测算法,通过对图像进行分析和处理,将显著对象与背景进行区分。这样的掩码可以帮助模型更好地关注图像中的显著对象,从而提高各种计算机视觉任务的性能和准确性。在文中提到的显著对象掩码可能是指用于强调图像中显著对象的标注掩码,用于辅助模型在语义分割或其他任务中更好地识别和定位显著对象。

 我们的方法也优于其他使用辅助显著目标掩码监督的方法[34,35],该方法提供了图像或额外的web图像或视频中显著目标的精确边界信息[30,52]。我们的方法的性能也可以与使用边界框监督的方法[26,50]相媲美。

表2:弱监督语义分割在PASCAL VOC 2012 val和测试图像上的性能。

 表3:半监督语义分割方法在PASCAL VOC 2012 val和测试图像上的比较。

"saliency"(显著性)通常指图像中引人注目或突出的部分或对象。显著性通常用于描述图像中吸引人们视觉注意力的区域或对象,这些区域或对象可能与背景有明显的差异,或者在视觉上更加突出和引人注目。显著性分析是一种用于确定图像中显著区域的计算方法,有助于理解人类视觉系统如何关注和解释图像。

在计算机视觉中,显著性通常与显著性检测(saliency detection)相关联,这是一种计算机算法,旨在自动识别图像中的显著区域或显著对象。显著性检测可以帮助计算机视觉系统更好地理解图像内容,从而在各种任务中提高性能,如目标检测、图像分割和图像理解等。

"Web" 在这里可能指的是网络(web)中的图像数据或信息。在计算机视觉研究中,研究人员可能会利用从互联网上收集的图像数据进行实验和训练模型。这些图像数据可能包含各种不同的场景、对象和标注信息,用于训练和评估计算机视觉模型的性能。因此,在这种情况下,"web" 可能指代从网络中获取的图像数据集。

 半监督语义分割:表3比较了我们的方法在PASCAL VOC验证和测试图像上的mIoU分数与其他最近的半监督分割方法的mIoU分数,这些方法使用1.5K具有完全监督掩码的图像和9.1K具有弱注释的图像。表3中的所有方法都是在基于resnet的骨干网上实现的[18],除了使用基于vgg的骨干网的\dagger方法[48]。对于PASCAL VOC 2012验证和测试图像,我们分别实现了77.8和76.9的mIoU值,在同等监管水平下优于其他方法。具体来说,我们的方法在验证图像上的性能比CCT[41]好4.6%,这是我们的基线。我们的方法甚至优于Song等人[50],他们对9.1K图像使用边界框标签,而不是类标签。图5给出了由CCT[41]和我们的方法生成的语义掩码示例。

5. Discussion

5.1. Iterative Adversarial Climbing

我们通过评估mIoU的初始种子来分析3.3节中介绍的迭代对抗爬升和正则化技术的有效性。图6(a)显示了每个对抗性迭代的初始种子的mIoU。最初,mIoU急剧上升,有或没有规范化;但如果没有正则化,曲线在第8次迭代时达到峰值。

为了分析这一点,我们评估了每个对抗攀爬迭代中新定位区域的真实性,以噪声的比例来衡量,我们定义噪声比例为被分类为前景但实际上是背景的像素比例。没有正则化,噪声比例随着迭代次数的增加急剧上升,如图 6(b) 所示,这意味着新区域倾向于出现在背景区域。正则化允许在多达 30 步对抗攀爬中找到目标对象的新区域,使得噪声比例远低于初始 CAM 的比例。图 7 显示了在有和没有正则化的情况下每个对抗迭代中的归因图的示例。

 图6:对抗爬升和正则化对(a)种子质量和(b)噪声比例的影响。(c)正则化系数λ的影响。(d)掩蔽阈值τ的影响。(d)步长ξ的影响。

表4:AdvCAM对生成初始种子的不同方法的影响:对于PASCAL VOC 2012训练图像,初始种子(seed)和伪地面真值掩码(mask)的mIoU。

这些伪地面真值掩码通常是通过对初始种子(seed)或初始预测结果进行后处理或优化得到的,以提高其与真实标注之间的匹配度。在语义分割任务中,这些伪地面真值掩码可以作为训练数据中的标签,用于监督模型学习像素级别的语义分割。

因此,在表中,"mask" 一般指的是经过处理或优化后的伪地面真值掩码,用于训练语义分割模型。这些掩码是为了提供更准确的标注信息,帮助模型学习正确地分割图像中的目标对象和语义区域。

 5.2. Hyper-Parameter Analysis

在上一节中,我们查看了对抗性迭代数量的影响(图6(a)和(b))。并分析了初始种子的mIoU对AdvCAM使用的其他三个超参数的敏感性

正则化系数λ:在Eq. 7中,它控制屏蔽技术的影响,该技术限制了在对抗爬升过程中已经具有高分的区域的归因分数。图6(c)显示了不同λ值下初始种子的mIoU。当λ = 0时,没有正则化。掩蔽技术提高了5%以上的性能(λ = 0时为50.43,λ = 7时为55.55)。λ = 5后曲线的平坦化表明,选择一个好的λ值并不困难

掩蔽阈值τ:它控制Eq. 5中限制掩码M的大小,确定在对抗爬升过程中有多少像素的属性值与原始CAM的属性值保持相似。图6(d)显示了不同τ值下初始种子的mIoU。该参数甚至比λ更不敏感:在0.3和0.7之间变化τ会产生不到1%的mIoU变化

步长ξ:它决定了在Eq. 6中对图像的处理程度。图6(e)显示了不同ξ值下初始种子的mIoU。在我们的系统中,步长ξ的变化不是特别显著。

5.3. Generality of Our Method

除了 IRN [1] 外,我们还尝试了两种最先进的弱监督语义分割初始种子生成方法,即 Chang 等人 [6] 和 SEAM [55]。我们在可能的情况下使用了作者预训练的分类器,但由于作者未提供预训练模型,我们重新训练了 IRN [1] 的分类器。我们还按照他们的实验设置,包括骨干网络和掩码细化方法,即我们使用 PSA [2] 来细化来自“Chang et al. + AdvCAM”或“SEAM + AdvCAM”的初始种子。表 4 给出了每种方法与对抗攀爬相结合后初始种子和伪地面真值掩码的 mIoU 值。使用 AdvCAM 将初始种子的质量平均提高了超过 4%。我们的方法不需要修改或重新训练这些初始种子生成器。

5.4. Manifold Visualization

为了在特征水平上可视化对抗性爬升的轨迹,我们使用了t-SNE降维[38]。我们收集了包含单一类别(猫或鸟)的图像,并确保这些图像被分类器正确地预测。然后,我们构建了一个包含这些图像特征的集合 F,这些特征是在最终分类层之前提取的。此外,他们选择了一张代表性的猫和一张代表性的鸟的图像,并构建了一个集合 F^{'},其中包含这两张图像以及它们经过对抗攀爬(adversarial climbing)处理的20张图像的特征。在这个实验中,我们使用 t-SNE(t-distributed stochastic neighbor embedding)技术对集合 F ∪ F^{'}中的特征进行可视化。结果显示,对抗攀爬实际上将特征推离了将蓝色和绿色区域分开的决策边界。此外,尽管经过了20次对抗攀爬步骤,处理后的特征并没有明显偏离每个类别的特征流形。

降维是一种数据处理技术,旨在减少数据集中特征的维度,同时保留数据集中最重要的信息。降维的目的是简化数据集,减少冗余信息和噪声,以便更好地理解数据、可视化数据、或者提高机器学习模型的性能。在可视化中,降维技术如 t-SNE(t-distributed stochastic neighbor embedding)被广泛应用,因为它可以将高维数据映射到低维空间,同时保持数据点之间的局部结构。通过降维,可以将高维数据转换为二维或三维空间,从而更容易理解和可视化数据的结构和关系。

特征流形(feature manifold)指的是数据在高维空间中的流形结构,即数据点在高维空间中的分布和关系。在降维可视化中,特征流形表示数据点在降维后的低维空间中的分布和结构。通过可视化特征流形,可以更好地理解数据点之间的关系和聚类结构。

"星星" 可能代表原始图像或数据点的位置,而 "特征推离" 意味着经过对抗攀爬处理后的特征在降维空间中被推离了原始数据点的位置或特征流形。这表明对抗攀爬技术改变了数据点在特征空间中的分布,使得它们在降维后的空间中更加分散或分离。这种现象可能反映了对抗攀爬对特征表示的影响,以及其如何改变数据点在特征空间中的位置和关系。

在图8中,特征流形表示数据点在降维空间中的分布和结构。不同颜色的深浅可能代表数据点在特征空间中的密度或聚集程度,深色可能表示数据点更密集或更相似,而浅色可能表示数据点更分散或更不相似。

图7: 初始cam(蓝色框)的例子和从迭代对抗爬升操作的图像中获得的连续定位地图,有正则化过程(上)和没有正则化过程(下)。

 图8:鸟”(蓝色)和“猫”(绿色)图像的特征流形,以及每个类别图像的对抗爬升轨迹。使用t-SNE对特征进行降维[38]。

6. Conclusion

我们已经展示了如何使用对抗性操作来扩展目标对象的小判别区域,从而获得该对象的更好定位。我们使用像素级扰动来操纵图像,这是由分类器的输出相对于输入图像计算的梯度获得的,这增加了扰动图像的分类分数。经过处理的图像的属性图覆盖了更多的目标物体。这是对训练过的分类器的事后分析,因此不需要修改或重新训练分类器。这使得AdvCAM可以很容易地集成到现有的方法。我们已经证明,AdvCAM确实可以与最近的弱监督语义分割网络相结合,并在弱监督和半监督语义分割上取得了新的最先进的性能。

经过处理的图像的属性图覆盖了更多的目标物体,指的是通过对图像进行特定处理(如对抗攀爬技术)后,生成的属性图(如类激活图)能够更好地覆盖目标物体的区域。这种处理使得属性图能够更全面地捕捉目标物体的特征和位置信息,从而提高了对目标物体的定位准确性。

这种处理是对训练过的分类器的事后分析,意味着在对图像进行处理后,生成的属性图是在已经训练好的分类器的基础上进行分析和生成的。这种分析不需要修改或重新训练分类器,而是通过对已有分类器输出的结果进行进一步处理和分析,以获得更好的目标物体定位效果。

因此,这种方法可以被称为“事后分析”,因为它是在已有的分类器输出结果的基础上进行的进一步分析和处理,而不需要对分类器进行修改或重新训练。这种方法的优势在于可以在不改变原有分类器结构的情况下,通过后续处理来提高目标物体定位的准确性和全面性。                                                                                                                                                                                                                                                        

  • 19
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值