TPAMI 2024 | 内容感知修正激活在零样本细粒度图像检索中的应用

Content-Aware Rectified Activation for Zero-Shot Fine-Grained Image Retrieval

题目:内容感知修正激活在零样本细粒度图像检索中的应用

作者:Shijie Wang , Jianlong Chang , Zhihui Wang , Haojie Li , Wanli Ouyang , and Qi Tian


摘要

细粒度图像检索(FGIR)主要集中于从已见过的子类别中学习显著特征作为区分性嵌入,而忽略了零样本设置背后的挑战。我们认为,在检索未见过的子类别中的细粒度对象时,可能需要依赖于更多样化的线索,而这些线索很容易被从已见过子类别中学习到的显著特征所限制。为了解决这一问题,我们提出了一种新颖的内容感知修正激活(Content-aware Rectified Activation, CaRA)模型,该模型能够在保留其区分能力的同时抑制显著区域的激活,并将激活扩散到相邻的非显著区域,从而为检索未见过的子类别挖掘出更多样的区分性特征。具体而言,我们构建了一个内容感知修正原型(CARP),通过感知显著区域的语义来实现。CARP充当通道级非破坏性激活上限,并可选择性地用于抑制显著区域以获得修正后的特征。此外,我们提出了两种正则化方法:1)语义一致性约束,它对CARP和显著区域的语义一致性施加了限制,旨在将显著区域的区分能力传播到CARP;2)特征导航约束,以进一步引导模型适应性地平衡修正特征的区分能力与显著区域的抑制能力。实验结果表明,我们的方法在细粒度和产品检索基准测试中一致性地超越了现有的最先进方法。

关键词

  • 内容感知修正激活
  • 细粒度图像检索
  • 零样本设置

I. 引言

细粒度图像检索(FGIR)的目标是检索属于某个元类别的多样化子类别的细粒度图像,并返回与查询图像相同子类别的图像[1],[2],[3]。由于子类别之间固有的微妙差异以及同一子类别内部的大变化,它比一般图像检索更具挑战性。因此,FGIR的关键在于学习区分性嵌入,以扩大类间距离,同时抑制类内变化,以应对FGIR的上述挑战[4],[5],[6],[7]。

近期,大多数现有工作通过成对约束[8],[9],[10],[11],[12],[13]或设计目标/部分的定位子网络[14],[15],[16],[17]来学习输入图像中的高质量和区分性嵌入,已经证明了它们在提高对已见过子类别检索或分类的鲁棒性和泛化性方面的重要作用[18],[19],[20],[21],[22]。然而,在实践中,它们通常需要使用从已见过子类别中学到的知识来检索未见过的子类别[1],[2]。这些方法的一个潜在局限性是,它们专注于从已见过子类别中学习显著特征作为区分性嵌入,但忽略了零样本设置背后的问题,导致在检索未见过的子类别时性能不佳。

由于受到零样本设置问题的影响,仅基于从已见过子类别中学习到的区分性嵌入,并不总是可靠的,以正确识别未见过的细粒度对象[23],[24]。具体来说,以前的FGIR工作更多地关注在已见过子类别中的显著区域,这些区域最容易降低当前训练经验风险,并相应地被视为学习到的区分性嵌入[25],[26]。因此,一个不可忽视的问题是,一些可能有助于识别未见过的子类别的潜在区分信息可能有很大概率被遗漏,导致检索性能不佳。如图1所示,如果鸟类的头部足以区分训练中见过的类别,那么深度模型将只关注这个头部并忽略其他部分。这样,当仅使用头部来检索具有相似头部区域但翅膀不同的未见过的子类别时,训练模型可能无法区分它们。

基于上述直观分析,我们认为在检索未见过的子类别中的细粒度对象时,0162-8828 © 2024 IEEE。个人使用是允许的,但重新发布/重新分发需要IEEE的许可。有关更多信息,请参见 https://www.ieee.org/publications/rights/index.html。授权许可使用仅限于香港理工大学。下载时间为2024年6月29日09:07:53 UTC,从IEEE Xplore。适用限制。

王等人:内容感知修正激活用于零样本细粒度图像检索4367图1。我们的Content-aware Rectified Activation (CaRA)的动机。在(a)中,深度模型在训练期间学习头部知识以区分已见过的子类别,但测试中的未见实例不能很好地通过头部被识别。在(b)中,CaRA挖掘身体信息并保留头部知识,从而提高了泛化能力并相应地识别未见过的子类别。图2。我们的CaRA旨在学习一座桥梁,以缩小显著区域与潜在区分区域之间的差距。不同颜色的值表示不同的激活强度。数字值”57”代表当前通道中的最新特征峰值。超过57的特征值需要替换,以降低显著区域的激活值并激活非显著区域。

更多的线索而不是从已见过的训练子类别中学到的显著嵌入可能更有用,正如最近一些工作所验证的[27],[28]。具体来说,他们采用集成技术来学习基于不同子任务的一组子嵌入,并相应地捕获多样化的视觉线索以检索未见过的类别。然而,这些工作通常需要精心设计一些互补的子任务,甚至为这些设计的子任务提供额外的注释,这在面对不同的检索任务时极大地牺牲了适用性。因此,为了在不损害适用性的情况下解决FGIR中零样本设置背后的问题是直接缩小显著区域与潜在区分区域在特征激活值方面的差距,并进一步突出显示那些潜在的区分性线索,如图2所示。

为此,我们提出了一种新颖且通用的内容感知修正激活(CaRA)网络。它以非破坏性的方式抑制显著区域,同时保留其区分能力。这允许我们的CaRA提取更多被显著区域限制的多样化区分性线索。具体而言,我们的CaRA构建了一个内容感知修正原型(CARP),作为非破坏性激活上限,通过收集通道级特征峰值并通过感知显著区域来估计相应的抑制系数。对于非破坏性质,设计了语义一致性约束(SSC),通过减少类别分布的互不一致性,以相互学习的方式从特征峰值传播区分信息到CARP。因此,SSC提供了丰富的监督信号,以确保CARP中的区分能力。在获得非破坏性激活上限,即CARP之后,我们将其用作阈值,选择性地抑制显著激活,并反过来突出显示相邻的非显著区分区域,从而生成修正后的特征。我们进一步引入了基于修正前后特征的区分强度的特征导航约束,以适应性地平衡显著区域的抑制能力和修正特征的区分能力。通过这种方式,我们的CaRA可以有效地防止由于显著区域的过度压缩而导致的修正特征的语义失真。如图2所示,CaRA校正的特征,保留先前的显著特征并挖掘一些其他潜在的重要特征,是多样化的并且更具区分性,因此有利于检索未见过的子类别。

我们的主要贡献总结如下:

  • 我们首次将显著区域抑制的概念引入FGIR,这缓解了FGIR中零样本设置的问题,并相应地提高了检索未见过的子类别的性能。
  • 我们提出了一个新颖的模型,称为CaRA,以非破坏性的方式抑制显著区域,同时保留其区分能力,这进一步挖掘了被显著区域限制的更多样的区分性特征。更重要的是,CaRA需要很少的额外参数,并且可以端到端训练。
  • 为了有效地保持激活上限的区分能力,即CARP,我们对CARP和特征峰值施加了语义一致性约束。此外,设计了特征导航约束,以适应性地平衡显著区域的抑制和修正特征的区分,防止了修正特征的语义失真。

在三个广泛使用的细粒度检索基准测试,即CUB-200-2011、Stanford-Cars和FGVC-Aircrafts,以及两个大规模产品检索数据集,即Stanford Online Products和In Shop Clothes上进行的全面实验和与现有技术的比较,证明了我们的CaRA模型的优越性。

III. 内容感知修正激活(Content-Aware Rectified Activation)

在本节中,我们设计了一个有效的形式感知修正激活(CaRA)网络,用于捕获由显著区域限制的多样化区分线索,以检索未见亚类。所提出的CaRA的整体架构如图3所示。

A. 内容感知修正原型

预测图像中显著区域的激活上限是抑制显著区域并反过来突出相邻非显著区域的先决条件。因此,我们构建了一个内容感知修正原型(CARP),作为激活上限。CARP是通过收集通道特征峰值并估计相应的抑制系数来生成的。学习CARP的详细信息如图4所示。更重要的是,为了使CARP成为一个非破坏性激活上限,我们设计了一个语义一致性约束,以通过减少类别分布的差异性,以相互学习的方式从特征峰值传播语义信息到CARP。

特征峰值提取器(Feature Peak Extractor):对于输入图像 X X X,我们记其特征图 Z ∈ R c × h × w Z \in \mathbb{R}^{c \times h \times w} ZRc×h×w,由最终卷积块提取,其中 h , w , c h, w, c h,w,c分别表示高度、宽度和维度。为了从特征图 Z Z Z中收集特征峰值,我们应用全局最大池化(GMP),这可以直接捕获通道显著特征。然而,直接应用GMP可能会引入高响应值的离散噪声,对CARP产生不利影响。

为了克服这一缺点,我们应用高斯平滑定向GMP来收集显著峰值,同时尽可能过滤掉离散噪声:
Z ^ x , y = 1 2 π σ 2 ∑ m = x − 2 x + 2 ∑ n = y − 2 y + 2 e − ( m − x ) 2 + ( n − y ) 2 2 σ 2 ⋅ Z m , n , \hat{Z}_{x,y} = \frac{1}{2\pi\sigma^2} \sum_{m=x-2}^{x+2} \sum_{n=y-2}^{y+2} e^{-\frac{(m-x)^2 + (n-y)^2}{2\sigma^2}} \cdot Z_{m,n}, Z^x,y=2πσ21m=x2x+2n=y2y+2e2σ2(mx)2+(ny)2Zm,n,
N ( Z ) max = { ( x , y ) ∣ E ( x , y ) ∈ GMP ( Z ^ ) } , N(Z)_{\text{max}} = \{(x, y) | E(x,y) \in \text{GMP}(\hat{Z})\}, N(Z)max={(x,y)E(x,y)GMP(Z^)},
其中 Z ^ ∈ R c × h × w \hat{Z} \in \mathbb{R}^{c \times h \times w} Z^Rc×h×w表示执行高斯平滑后的平滑特征图,核大小为5, N ( Z ) max ∈ R c × 2 N(Z)_{\text{max}} \in \mathbb{R}^{c \times 2} N(Z)maxRc×2表示 Z ^ \hat{Z} Z^ E ( x , y ) E(x,y) E(x,y)的最大元素的坐标集。因此,可以通过以下方式获得特征峰值 P ∈ R c P \in \mathbb{R}^c PRc
P = Z ( x , y ) ∣ ( x , y ) ∈ N ( Z ) max . P = Z(x, y) | (x, y) \in N(Z)_{\text{max}}. P=Z(x,y)(x,y)N(Z)max.

抑制概率预测器(Suppression Probability Predictor):在获得特征峰值后,网络需要预测一组抑制系数,并与特征峰值合作,确定如何抑制显著区域。因此,我们通过感知全局上下文信息来学习通道抑制系数 S ∈ R c S \in \mathbb{R}^c SRc
S = δ ( W θ A ( Z ) ) , S = \delta(W_\theta A(Z)), S=δ(WθA(Z)),
其中 A ( ⋅ ) A(\cdot) A()表示全局平均池化, W θ ∈ R c × c W_\theta \in \mathbb{R}^{c \times c} WθRc×c是无偏全连接(FC)层中的可学习参数,随后是Sigmoid激活函数 δ ( ⋅ ) \delta(\cdot) δ()

内容感知修正原型(CARP):使用特征峰值和相应的抑制系数,可以通过以下方式计算CARP Δ ∈ R c \Delta \in \mathbb{R}^c ΔRc
Δ = P ⊙ S , \Delta = P \odot S, Δ=PS,
其中 ⊙ \odot 表示逐元素乘法。由于 Z Z Z中的特征隐式地决定了特征峰值和抑制系数,因此CARP是内容感知的,并且因图像而异。更重要的是,当CARP被视为激活上限时,它可以有效桥接显著区域和相邻非显著区域之间的差距。

语义一致性约束(Semantic Coherency Constraint):为了使CARP成为一个非破坏性激活上限,我们在图5(a)中对CARP和特征峰值的语义一致性施加了约束。受相互学习方法的启发,语义一致性约束是通过减少特征峰值和CARP之间的类别分布差异来设计的。给定特征峰值 P P P和CARP Δ \Delta Δ,我们引入两个特征特定的分类器来输出它们的概率预测。这两个分类器通过交叉熵损失进行优化:
L m c = − 1 n ∑ i = 1 n [ log ⁡ P ( y i ∣ C p ( P i ∣ θ p ) ) − log ⁡ P ( y i ∣ C Δ ( Δ i ∣ θ Δ ) ) ] , L_{mc} = -\frac{1}{n} \sum_{i=1}^{n} \left[ \log P(y_i | C_p(P_i|\theta_p)) - \log P(y_i | C_\Delta(\Delta_i|\theta_\Delta)) \right], Lmc=n1i=1n[logP(yiCp(Piθp))logP(yiCΔ(ΔiθΔ))],
其中 n n n表示当前输入批次中的图像数量, y i y_i yi表示 P i P_i Pi Δ i \Delta_i Δi的相应标签, C p ( P i ∣ θ p ) C_p(P_i|\theta_p) Cp(Piθp) C Δ ( Δ i ∣ θ Δ ) C_\Delta(\Delta_i|\theta_\Delta) CΔ(ΔiθΔ)分别是具有参数 θ p \theta_p θp θ Δ \theta_\Delta θΔ的两个分类器的预测。

由于特征峰值和CARP被馈送到它们相应的分类器,分类器只从相应的特征中学习。因此,给定一个特征,如果两个特征特定的分类器能够提供相同的概率分布,这意味着特征峰值和CARP具有相同的语义信息。因此,基于Kullback-Leibler(KL)散度施加语义一致性约束:
L s c = − 1 n ∑ i = 1 n [ P ( Δ i ∣ θ p ) log ⁡ P ( Δ i ∣ θ p ) P ( Δ i ∣ θ Δ ) + P ( P i ∣ θ Δ ) log ⁡ P ( P i ∣ θ Δ ) P ( P i ∣ θ P ) ] . L_{sc} = -\frac{1}{n} \sum_{i=1}^{n} \left[ P(\Delta_i|\theta_p) \log \frac{P(\Delta_i|\theta_p)}{P(\Delta_i|\theta_\Delta)} + P(P_i|\theta_\Delta) \log \frac{P(P_i|\theta_\Delta)}{P(P_i|\theta_P)} \right]. Lsc=n1i=1n[P(Δiθp)logP(ΔiθΔ)P(Δiθp)+P(PiθΔ)logP(PiθP)P(PiθΔ)].

语义一致性鼓励特征特定分类器为特征峰值和CARP提供一致的预测分布。然而,直接通过(7)优化分类器会导致两个分类器的参数很快变得相似,因为分类器从另一个源特征中学习分类知识,而不是使它们的预测概率分布一致。

为了避免这个问题,我们提出使用时间均分类器为监督语义一致性生成概率分布。具体来说,当前迭代 t t t的时间均分类器的参数分别记为 E ( t ) [ θ p ] E(t)[\theta_p] E(t)[θp] E ( t ) [ θ Δ ] E(t)[\theta_\Delta] E(t)[θΔ],可以更新为:
E ( t ) [ θ Δ ] = ( 1 − α ) E ( t − 1 ) [ θ Δ ] + α θ Δ , E(t)[\theta_\Delta] = (1 - \alpha)E(t-1)[\theta_\Delta] + \alpha\theta_\Delta, E(t)[θΔ]=(1α)E(t1)[θΔ]+αθΔ,
E ( t ) [ θ p ] = ( 1 − α ) E ( t − 1 ) [ θ p ] + α θ p , E(t)[\theta_p] = (1 - \alpha)E(t-1)[\theta_p] + \alpha\theta_p, E(t)[θp]=(1α)E(t1)[θp]+αθp,
其中 E ( t − 1 ) [ θ p ] E(t-1)[\theta_p] E(t1)[θp] E ( t − 1 ) [ θ Δ ] E(t-1)[\theta_\Delta] E(t1)[θΔ]分别表示上一次迭代( t − 1 t-1 t1)的时间均分类器的参数。 E ( 0 ) [ θ p ] E(0)[\theta_p] E(0)[θp] E ( 0 ) [ θ Δ ] E(0)[\theta_\Delta] E(0)[θΔ]初始化为 E ( 0 ) [ θ p ] = θ p E(0)[\theta_p] = \theta_p E(0)[θp]=θp E ( 0 ) [ θ Δ ] = θ Δ E(0)[\theta_\Delta] = \theta_\Delta E(0)[θΔ]=θΔ α ∈ ( 0 , 1 ] \alpha \in (0, 1] α(0,1]是动量系数。通过这种方式,公式(7)可以被重写为:

L s c e = − 1 n ∑ i = 1 n [ C p ( Δ i ∣ E [ θ p ] ) log ⁡ C p ( Δ i ∣ E [ θ p ] ) C Δ ( Δ i ∣ θ Δ ) − C Δ ( P i ∣ E [ θ Δ ] ) log ⁡ C Δ ( P i ∣ E [ θ Δ ] ) C p ( P i ∣ θ P ) ] . ( 9 ) L_{sce} = -\frac{1}{n} \sum_{i=1}^{n} \left[ C_p(\Delta_i | E[\theta_p]) \log \frac{C_p(\Delta_i | E[\theta_p])}{C_\Delta(\Delta_i|\theta_\Delta)} - C_\Delta(P_i | E[\theta_\Delta]) \log \frac{C_\Delta(P_i | E[\theta_\Delta])}{C_p(P_i|\theta_P)} \right]. \quad (9) Lsce=n1i=1n[Cp(ΔiE[θp])logCΔ(ΔiθΔ)Cp(ΔiE[θp])CΔ(PiE[θΔ])logCp(PiθP)CΔ(PiE[θΔ])].(9)

通过采用语义一致性约束,具有高激活的特征峰值大致等同于具有相似语义但低激活的CARP。

B. 选择性再激活

为了挖掘更多可能有助于检索未见亚类的潜在区分性视觉线索,我们提出了一个选择性再激活模块,该模块能够在保留显著区域的区分能力的同时抑制其激活,并反过来突出那些非显著区域。具体来说,在将CARP Δ c \Delta_c Δc 扩展为 Δ ^ c × h × w \hat{\Delta}_{c \times h \times w} Δ^c×h×w 后,选择性再激活定义为:

F i , j , k = { Z i , j , k , if  Z i , j , k < Δ ^ i , j , k Δ ^ i , j , k , if  Z i , j , k ≥ Δ ^ i , j , k F_{i,j,k} = \begin{cases} Z_{i,j,k}, & \text{if } Z_{i,j,k} < \hat{\Delta}_{i,j,k} \\ \hat{\Delta}_{i,j,k}, & \text{if } Z_{i,j,k} \geq \hat{\Delta}_{i,j,k} \end{cases} Fi,j,k={Zi,j,k,Δ^i,j,k,if Zi,j,k<Δ^i,j,kif Zi,j,kΔ^i,j,k

其中 F i , j , k F_{i,j,k} Fi,j,k Z i , j , k Z_{i,j,k} Zi,j,k Δ ^ i , j , k \hat{\Delta}_{i,j,k} Δ^i,j,k 分别表示修正特征 F F F、原始特征 Z Z Z 以及激活阈值 Δ ^ \hat{\Delta} Δ^ 在第 i i i 行、第 j j j 列和第 k k k 通道的空间位置处的 feature value。需要明确的是,CARP 作为一个非破坏性激活上限,用于替换显著区域并尽可能保留它们的区分性语义。因此,CaRA 能够在保留显著区域的区分能力的同时,挖掘那些被显著区域限制的更多潜在区分性视觉线索。

检索特征

在获得修正特征图 F ∈ R c × h × w F \in \mathbb{R}^{c \times h \times w} FRc×h×w 后,通过全局平均池化 A ( ⋅ ) A(\cdot) A() 提取检索特征:

f = A ( F ) f = A(F) f=A(F)

特征导航约束

CaRA 旨在使用 CARP 抑制显著区域,但并未考虑探索潜在区分性线索的最优抑制水平。为了达到此目的,我们依赖于以下假设:修正激活在表征细粒度对象时更有效,通过从修正特征而非原始特征提取嵌入,可以获得更好的性能。基于此假设,如图5(b)所示,定义了特征导航损失 L f L_f Lf

L f = 1 n ∑ i = 1 n max ⁡ { 0 , C ( z i ∣ θ ) − C ( f i ∣ θ ) } L_f = \frac{1}{n} \sum_{i=1}^{n} \max\{0, C(z_i|θ) - C(f_i|θ)\} Lf=n1i=1nmax{0,C(ziθ)C(fiθ)}

其中 z = A ( Z ) z = A(Z) z=A(Z) 表示在原始特征图 Z Z Z 上执行全局平均池化 g ( ⋅ ) g(\cdot) g() 得到的特征向量, C ( ⋅ ) C(\cdot) C() 是将特征向量映射到其为真实类别的概率的分类器。特征导航约束为修正特征的区分能力提供了一个下限,这个下限是动态的,基于原始特征的区分能力。因此,该约束被设计为使网络在抑制显著区域的能力和修正特征的区分能力之间建立一个最优的权衡。更重要的是,这个特征导航约束是可微分的,其相对于 W f W_f Wf 的导数可以通过链式法则在反向传播中计算:

∂ L f ∂ W f = 1 n ∑ i = 1 n [ 1 { C ( z i ∣ θ ) > C ( f i ∣ θ ) } × ( ∂ C ( z i ∣ θ ) ∂ W f − ∂ C ( f i ∣ θ ) ∂ W f ) ] \frac{\partial L_f}{\partial W_f} = \frac{1}{n} \sum_{i=1}^{n} \left[ 1\{C(z_i|θ) > C(f_i|θ)\} \times \left( \frac{\partial C(z_i|θ)}{\partial W_f} - \frac{\partial C(f_i|θ)}{\partial W_f} \right) \right] WfLf=n1i=1n[1{C(ziθ)>C(fiθ)}×(WfC(ziθ)WfC(fiθ))]

在我们的方法中,背景可以被抑制有两个原因。首先,我们的模型更关注图像中的显著区域,这些区域更容易降低当前训练的经验风险,导致背景区域的激活值趋向于0。其次,我们设计的特征导航约束被用来隐式地抑制背景区域。具体来说,这些背景区域可能引入无用信息,对修正特征的区分能力产生负面影响。我们的特征导航约束惩罚网络确保背景区域的激活值收敛到0。需要明确的是,尽管 CaRA 和一般特征都是内容感知的,但它们在内容感知方法上有所不同。与通过 CNN 或 Transformer 获得的一般特征不同,CaRA 更加关注显著区域,而不是平等对待输入图像的全部视觉内容,进一步将其与一般特征区分开来。此外,我们设计了两个约束来直观地指导信息传播,使其与一般特征不同。

C. CARP 的数学分析

数学定义 1:给定特征峰值 P P P 和抑制系数 S S S,我们定义非破坏性激活上限 Δ = P ⊙ S \Delta = P \odot S Δ=PS,其中 Δ \Delta Δ P P P 的区分能力相同,由于施加了语义一致性约束, ⊙ \odot 表示逐元素乘法操作。

在获得非破坏性激活上限 Δ \Delta Δ 后,我们定义修正特征 F F F 为:
F = { x 111 , . . . , x i j k , . . . , x w h c } , x i j k = min ⁡ { Z i j k , Δ k } F = \{x_{111}, . . . , x_{ijk}, . . . , x_{whc}\}, \quad x_{ijk} = \min\{Z_{ijk}, \Delta_k\} F={x111,...,xijk,...,xwhc},xijk=min{Zijk,Δk}
其中 z i j k z_{ijk} zijk 是原始特征 Z Z Z 中第 ( i , j ) (i, j) (i,j) 位置和第 k k k 通道的特征值。证明:要证明 Δ \Delta Δ 是非破坏性激活上限,我们需要展示在修正特征 F F F 中的任何特征值 x i j k x_{ijk} xijk 其区分能力不小于 z i j k z_{ijk} zijk。即: D ( x i j k ) ≥ D ( z i j k ) D(x_{ijk}) \geq D(z_{ijk}) D(xijk)D(zijk),其中 D ( ⋅ ) D(\cdot) D() 表示区分能力。

我们可以分两种情况讨论:1. 当 z i j k ≤ Δ k z_{ijk} \leq \Delta_k zijkΔk 时,我们有 x i j k = z i j k x_{ijk} = z_{ijk} xijk=zijk。因此, D ( x i j k ) = D ( z i j k ) D(x_{ijk}) = D(z_{ijk}) D(xijk)=D(zijk)。2. 当 z i j k > Δ k z_{ijk} > \Delta_k zijk>Δk 时,我们有 x i j k = Δ k x_{ijk} = \Delta_k xijk=Δk。由于 D ( P ) = D ( Δ ) D(P) = D(\Delta) D(P)=D(Δ),我们有 D ( z i j k ) ≤ D ( P k ) = D ( Δ k ) = D ( x i j k ) D(z_{ijk}) \leq D(P_k) = D(\Delta_k) = D(x_{ijk}) D(zijk)D(Pk)=D(Δk)=D(xijk)。因此, D ( x i j k ) ≥ D ( z i j k ) D(x_{ijk}) \geq D(z_{ijk}) D(xijk)D(zijk)。结合上述等式和不等式,我们得到: D ( x i j k ) ≥ D ( z i j k ) D(x_{ijk}) \geq D(z_{ijk}) D(xijk)D(zijk)。综上所述, Δ \Delta Δ 是一个非破坏性激活上限。

D. 目标函数

一旦通过我们的模型提取了特征,我们使用交叉熵损失和三元组损失来训练模型。以下交叉熵损失施加在分类器 C ( ⋅ ) C(\cdot) C() 上,以预测亚类:

L c = − 1 n ∑ i = 1 n log ⁡ P ( y i ∣ C ( f i ∣ θ ) ) L_c = -\frac{1}{n} \sum_{i=1}^{n} \log P(y_i|C(f_i|θ)) Lc=n1i=1nlogP(yiC(fiθ))

三元组损失可以写成:

L t = 1 n ∑ i = 1 n [ d ap − d an + m ] + L_t = \frac{1}{n} \sum_{i=1}^{n} [d_{\text{ap}} - d_{\text{an}} + m]_+ Lt=n1i=1n[dapdan+m]+

其中 [ ⋅ ] + = max ⁡ ( ⋅ , 0 ) [\cdot]_+ = \max(\cdot, 0) []+=max(,0) m m m 表示边界。 d ap d_{\text{ap}} dap 表示三元组中锚点和正样本之间的欧几里得距离, d an d_{\text{an}} dan 表示锚点和负样本之间的距离。

E. 优化

总损失 L L L 定义为:
L = L c + L t + λ 1 L m c + λ 2 L s c e + λ 3 L f L = L_c + L_t + λ_1L_{mc} + λ_2L_{sce} + λ_3L_f L=Lc+Lt+λ1Lmc+λ2Lsce+λ3Lf

其中 λ 1 , λ 2 λ_1, λ_2 λ1,λ2 λ 3 λ_3 λ3 是超参数,用于平衡各个损失项的贡献。因此,CaRA 可以通过优化 L L L 以端到端的方式进行训练。

IV. 实验

A. 数据集和评估协议

细粒度检索数据集:CUB-200-2011 [53] 包含了200种鸟类亚类,共11,788张图像。我们使用前100类(5,864张图像)进行训练,其余(5,924张图像)用于测试。Stanford Cars [54] 包含196种车型,共16,185张图像。Stanford Cars [54] 的分割与CUB类似,前98类(8,054张图像)用于训练,其余类(8,131张图像)用于测试。FGVC Aircraft [55] 分为前50类(5,000张图像)用于训练,剩余50类(5,000张图像)用于测试。

产品检索数据集:In Shop Clothes Retrieval (InShop) [56] 包含7,982个亚类,共52,712张图像,我们使用3,997类(25,882张图像)进行训练,其余3,985类用于测试。In-Shop 在查询集(14,218张图像)和图库集(12,162张图像)之间进行划分。Stanford Online Products (SOP) [57] 分为11,318个亚类(59,551张图像)用于训练,其余11,316类(60,502张图像)用于测试。

评估协议:我们通过使用余弦距离的Recall@K评估检索性能,这是对测试集中所有查询图像的平均召回分数,严格遵循 [58] 中的设置。具体来说,对于每个查询,我们的模型返回最相似的K张图像。在返回的K张图像中,如果至少存在一张正样本,则分数为1,否则为0。

B. 实现细节

我们在实验中使用了广泛使用的Resnet [59],并使用了预训练的参数。输入的原始图像被调整大小至256×256,并裁剪至224×224。我们使用随机梯度下降(SGD)优化器训练我们的模型,权重衰减为0.0001,动量为0.9,批量大小为32。我们采用了常用的数据增强技术,即随机裁剪和擦除,左右翻转和颜色抖动,以获得强大的特征表示。我们的模型相对轻量级,可以在单个NVIDIA 2080Ti GPU上端到端训练,以加速训练。初始学习率设置为10^-5,每5个周期指数衰减0.9。训练周期总数设置为200。语义正则化的动量系数设置为0.2。分类器Cp、CΔ和C由单个无偏全连接(FC)层实现。对于三元组损失,边界m设置为0.3。

C. 消融实验

在本节中,我们首先通过在CUB-200-2011数据集上进行消融实验,研究我们提出的CaRA的有效性和效率。然后,我们检验了语义一致性约束和特征导航约束的贡献。在表I和表II中分别展示了检索精度和提取表示时间的定量性能。


精度分析:与表I中的基线方法相比,我们有以下观察结果。首先,仅采用CaRA模块而不使用语义一致性和特征导航约束也能带来性能提升。这一结果证明了修正特征可以抑制显著区域并传播到相邻的非显著区域,从而缓解了零样本设置背后的问题,相应地提高了检索未见亚类的性能。尽管由于缺乏语义一致性约束而丢弃了显著区域的辨别能力,CaRA仍然可以挖掘出更多多样化的视觉线索,从而弥补了辨别能力。我们还验证了高斯平滑定向全局最大池化(GSGMP)的贡献,它可以过滤掉一些峰值噪声,从而轻微提高性能。

为了进一步验证两个约束的有效性,即语义一致性约束和特征导航约束,我们在表II中列出了一些实验结果。当在内容感知修正原型中引入语义一致性约束(Lmc + Lsce)时,可以直接将检索性能提高3.5%。此外,我们可以发现仅引入特征特定分类器(Lmc)对于保持原始峰值和内容感知修正原型之间的语义一致性不太有益。因此,这一结果反映了设计的语义一致性约束可以提供比传统分类损失更丰富的监督信号。更重要的是,当从语义一致性约束中移除时间均值分类器(Lsce)时,检索性能显著下降。结果反映了特征特定分类器从另一个源特征中学习分类知识,而不是使它们的预测概率分布保持一致。最后,我们添加了特征导航约束,以指导网络进一步自适应地平衡显著区域的抑制能力和修正特征的辨别能力。此外,发现表明特征引导约束和交叉熵损失(Lc)协同工作,增强了修正特征的辨别能力,同时确保我们的CaRA可以有效地防止由于显著区域的过度压缩导致修正特征的语义失真。

速度分析:表I和表II还报告了CaRA的速度-精度权衡。当背景网络提取细粒度表示时,每张图像的耗时约为21毫秒,准确率为66.3%。我们在背景网络中引入CaRA,得到了21.7毫秒的耗时和73.9%的准确率。这一结果反映了我们提出的CaRA引入了一些额外的计算,但显著提高了检索精度。

D. 与细粒度检索基准上的最先进方法的比较

我们在三个广泛使用的细粒度检索数据集上比较了我们提出的CaRA与现有的最先进方法,以展示其卓越的性能,如表III所示。在表中,从上到下,方法被分为两组,分别是(1)基于定位的网络,(2)基于度量的框架。应该指出的是,我们的CaRA可以被视为基于度量的工作。

对象/部分定位模型的成功在很大程度上归功于它们捕获辨别特征和去除背景信息的能力。这使它们能够直接强调亚类之间的差异。尽管现有的FGIR中的工作取得了令人鼓舞的结果,但它们仍然受到零样本设置问题的困扰。这可能导致潜在的辨别线索被忽略,而这些线索通常受到显著区域的限制。因此,学习表示的辨别力和泛化力可能会降低。基于度量学习的工作旨在通过扩大/缩小它们之间的距离来精确识别负/正对,间接探索特征的辨别能力。尽管基于度量的工作可以从整体对象的角度提取嵌入,但这些嵌入中的潜在辨别线索仍然受到显著区域的限制。因此,全局和局部特征的固有缺陷,即显著区域的高激活度稀释了潜在的重要信息,限制了这些方法的进一步改进。

  1. 在CUB-200-2011数据集上的比较:CUB-200-2011是使用最广泛的数据集,由100种鸟类物种组成,在检索阶段外观视觉上相似。检索精度可以在表III中找到。按照前述分组方式,我们将现有的最先进模型分为两组。可以发现,早期的工作,例如 [2],[62] 依赖于准确的对象/部分定位信息,仅实现了62.5%和69.5%的recall@1基础性能。因此,随着深度度量学习方法 [30],[29] 的发展,recall@1检索精度已经提高了2%以上,而无需任何额外的注释。

另一方面,基于度量的算法在捕获辨别知识和形成有效的嵌入方面也显示出优势,从全局特征的角度来看。因此,我们提出的CaRA方法也倾向于通过内容感知修正激活算法从全局特征的角度挖掘更多潜在的辨别特征。因此,我们提出的方法生成了73.9%准确率的最新结果,证明了所提出框架的有效性。

  1. 在Stanford-Cars数据集上的比较:表III展示了在Stanford-Cars数据集上的检索性能。Stanford-Cars是一个更容易的数据集,之前的接近方法达到了超过90.1%的精度。可以发现,在这个数据集上之前的作品表现非常相似的检索结果,例如CEP [31]的89.3%结果,ETLR [30]的89.6%性能和PNCA++ [29]的90.1%检索精度。令人惊讶的是,即使在这个数据集上,我们的方法也能提供与现有最先进检索性能相比的巨大改进,达到了94.1%的结果。

  2. 在FGVC-Aircraft数据集上的比较:与在CUB-200-2011数据集上的基准测试类似,我们在这里也在表III上对飞机的亚类进行了比较。最近的方法,例如HDCL [62]达到了70.1%的性能,这比之前的作品 [1] 高。为了与这些作品进行公平比较,我们采用了轻量级的RestNet-50背景,实现了84.3%的最新性能。由于大多数飞机对象很大,在图像中占据了很大的区域,它们可能加剧了FGIR中零样本设置的问题。我们运行CaRA直接探索图像中的显著和非显著区域,通过抑制显著区域的激活并将激活传播到相邻的非显著区域。因此,我们的CaRA可以强调亚类之间的差异,并最终实现新的SOTA性能。

E. 与产品检索基准上的最先进方法的比较

在本小节中,我们在两个大规模代表性基准上与现有最先进方法进行了实验比较,例如In-shop [56]和Stanford-OnlineProducts [57]。

1)在In-Shop数据集上的比较:我们的CaRA超越了所有现有方法,并以93.1%的检索精度取得了最佳性能,如表IV所示。此外,我们击败了第二好的工作CEP [31],并获得了2.5%的相对精度提升。上述结果证明了CaRA的卓越性能,这得益于在大规模检索任务中缓解了零样本设置的问题。

2)在Stanford-Online-Products数据集上的比较:我们提出的方法在StanfordOnlineProducts数据集上超越了现有的顶级工作,并在表V中建立了新的最先进性能。DAS [63]设计了一种新的采样方案,以产生一些具有稀有样本的嵌入。NIR [35]强制执行来自各自类代理的独特可译性,将具有相同亚类的样本的距离拉近。然而,之前的作品主要集中于从看到过的亚类中学习辨别性嵌入,忽略了可以提高未见亚类检索性能的潜在线索。这一限制导致检索性能降低。我们的方法克服了这一限制,并以显著的优势超越了之前最先进方法HIST [34],提高了1.0%。

在两个大规模产品数据集上的实验结果展示了我们CaRA的显著检索能力。这些结果提供了证据,表明我们的方法通过抑制显著区域同时保留它们的辨别能力,并将激活传播到相邻的非显著区域,通过挖掘更多潜在的辨别线索,从而提高了FGIR任务的有效性。

F. 可视化分析

可视化抑制系数:抑制系数在所提出的CaRA中起着至关重要的作用。为了进一步说明影响显著区域抑制的抑制系数的有效性,我们可视化了抑制系数。这些抑制系数可以通过使用高斯平滑定向GMP的输出将其投影到坐标空间中。如图6所示,抑制系数可以在对象区域显示,这表明被抑制的显著区域在对象范围内。有趣的是,基线模型可以或多或少地关注背景信息作为检索证据,导致较差的泛化能力。如图6所示,可以发现背景中的抑制系数较大,这表明我们提出的CaRA可以通过替换它们来抑制高响应的无用背景信息,从而产生强大的识别能力。

定性结果:我们在图7中从CUB-200-2011、Cars196和Stanford Online Products数据集中展示了几个检索示例。我们看到我们的方法可以成功检索到正样本,尽管存在各种姿势、背景、颜色和视点。这一结果意味着我们提出的CaRA可以捕获被显著区域限制的潜在辨别区域,并相应地提高检索性能。

CaRA的效果:如图8所示,提出的内容感知修正激活在最大预测亚类是真实类别时也会抑制辨别区域。尽管这些辨别区域被抑制,但它们仍然通过引入语义一致性约束保留了辨别信息,这导致保留先前的显著特征并挖掘一些其他可能重要的特征。然而,对于零样本细粒度检索来说,这并不是坏消息,因为我们的模型不能丢弃太多看似无用的信息,这些信息在测试阶段对未见类别可能是有用的。因此,它带来了一个额外的优势,迫使我们的模型寻找更多样和辨别性的线索。

局限性:在复杂场景中,如背景干扰和遮挡,我们的CaRA在正确检索视觉上相似的对象时存在困难。如图9所示,我们展示了一些失败案例来分析我们CaRA的局限性。在图9的第一行中,我们的算法对于是关注鸟还是树表现出不确定性。此外,在图9的第二行中,由于复杂的背景干扰,我们的CaRA未能检测到某些鸟的部分。这些可视化结果表明,我们的模型在有效抑制噪声对象的激活方面存在困难,甚至在面对遮挡和背景干扰时可能错过重要的视觉线索。这最终导致检索嵌入的辨别能力降低。遮挡和复杂的背景干扰带来了重大挑战,并构成了未来研究工作的重要方向。

G. 讨论

内容感知的有效性:在这部分中,我们展示了不同激活函数对性能的影响,包括Sigmoid激活函数和我们的CaRA激活函数。如表VI所示,尽管Sigmoid函数也可以抑制显著区域,但它丢弃了显著区域的辨别能力,并将特征值投影到范围(0,1)内。这些因素导致了检索性能较低。与Sigmoid函数相比,我们提出了一种内容感知的修正激活函数,可以根据特征内容学习激活阈值,并通过引入语义一致性和特征导航约束来保证修正特征的辨别能力。

固定或可学习的抑制系数:我们探索了两种类型的抑制系数:硬性和软性,在表VII中。我们通过分别使用这两种方式,研究了内容感知抑制系数对检索性能的影响。对于硬性方式,它僵硬地抑制显著区域。具体来说,如果抑制值太低,这些非显著的辨别区域仍然被显著区域所掩盖。而抑制值过大时,背景区域被激活,导致引入噪声信息。我们使用软性方式以内容感知的方式预测抑制系数,可以根据视觉特征自适应地抑制显著区域,进一步提高检索性能。

语义一致性约束的有效性:语义一致性约束旨在通过语义对齐他们的类别概率分布,从显著区域传播辨别能力到内容感知修正原型。为了验证这种设计方案在语义一致性约束中的有效性,我们直接对齐类别概率值,使用均方误差(MSE)损失来评估检索性能。如表VIII所示,我们可以观察到,在未见类别上的检索性能从73.9%下降到67.5%。结果反映了内容感知修正原型由于对齐类别概率值而不是它们的分布,而丢弃了对未见类别的泛化能力。

超参数分析:我们对(16)中的超参数进行了敏感性分析,并在图10中展示了评估结果。为了确定这些超参数的最佳值,我们进行了广泛的消融实验,以评估所提出的模型对这些参数变化的敏感性。我们的分析揭示了我们的CaRA模型对λ1、λ2和λ3的变化稍微敏感,因为这些超参数的微小变化不会显著影响其性能。

H. 泛化分析

开放世界场景中的泛化:为了评估我们的CaRA的泛化能力,我们在两个开放世界数据集上进行了实验,即MIRFlickr-25 [81]和MS COCO [82]。所获得的结果在表IX中展示,我们使用星号(*)表示在相同实验设置下我们重现的结果。CSQ [80]提出了一个全局相似度度量,通过学习相似数据对的共同中心,并为不相似的对收敛到不同的中心,从而提升检索性能。我们的框架结合CSQ表现最佳,并取得了非常有竞争力的结果。与原始的CSQ相比,我们的CaRA可以通过激活具有大多样性的非显著区域,更全面地表示图像的特征。尽管如此,我们的CaRA保留了从开放领域图像中探索更多互补线索的优势,学习辨别性嵌入空间,有效地度量开放世界场景中样本之间的相似性。

与大规模图像编码器的比较:最近,大规模预训练的图像编码器在处理未知类别方面显示出前景,通过从大规模训练数据中学习视觉概念。然而,如表X所示,使用不同的大规模预训练图像编码器,如ViT-H和CLIP-L,实际上可能导致与我们的CaRA相比检索精度降低。这种现象是合理的,因为这些编码器通常旨在捕获一般类别级语义(例如,狗和猫),而不是区分细粒度对象(例如,不同品种的狗)所需的更微妙的视觉差异。当微调这些大规模图像编码器时,它们可以由于全局注意力机制而强调一些细微的差异,从而提高检索性能。然而,它们仍然因为缺少对未见类别有帮助的一些潜在辨别线索,使得难以超越我们的CaRA。相比之下,我们的CaRA旨在抑制显著区域的激活,并将激活传播到相邻的非显著区域,从而挖掘更微妙但有辨别性的线索,并相应地提高检索精度。

V. 结论

在本文中,我们为细粒度图像检索任务提出了一种新颖的内容感知修正激活(CaRA)网络。为了解决FGIR中零样本设置的问题,我们首次尝试设计了一种显著的丢弃方案,使网络能够挖掘对检索未见亚类具有潜在重要性的信息。除此之外,我们进一步提出了一种新的内容感知修正原型,以弥合显著区域和潜在辨别区域之间的差距。同时,我们设计了语义一致性约束,以提供非破坏性激活上限,以及特征导航约束,以平衡显著区域的抑制能力和修正特征的辨别能力。通过这种方式,我们的CaRA能够捕获更多样化的视觉线索,并保留原始的辨别信息,以识别未见亚类。广泛的实验表明,我们的方法在三个流行的细粒度检索基准和两个大规模产品检索数据集上取得了最先进的结果。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值