【弱监督语义分割WSSS】Hunting Attributes:Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation
【2024|CVPR】Hunting Attributes:Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation
论文链接:https://arxiv.org/pdf/2403.07630
代码链接:https://github.com/Barrett-python/CPAL
文章目录
- 【弱监督语义分割WSSS】Hunting Attributes:Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation
- 摘要
- 一、引言
- 二、最近工作
- 三、方法详解
- 四、实验安排
- 五、总结
摘要
最近的弱监督语义分割(WSSS)方法努力纳入上下文知识,以提高类激活图(CAM)的完整性。本文认为,实例和上下文之间的知识偏差影响了原型( prototype)充分理解实例语义的能力。受原型学习(Prototype-based learning)理论的启发,本文提出利用原型感知来捕获实例的多样化和细粒度特征属性。由于这种认知偏差,情境原型可能会错误地激活相似且频繁同时出现的物体类别。因此,本文提出通过降低偏差来增强原型表示能力,以更好地捕获语义对象区域的空间覆盖率。本文提出一种上下文原型感知学习(CPAL)策略,利用语义上下文来丰富实例理解。该方法的核心是通过上下文感知原型准确捕捉对象特征的类内变化,便于适应不同实例的语义属性。设计了特征分布对齐来优化原型感知,将实例特征分布与密集特征对齐。此外,提出了一种统一的训练框架,将标签引导的分类监督和原型引导的自监督相结合。在PASCAL VOC 2012和MS COCO 2014数据集上的实验结果表明,CPAL显著改善了现有方法,并取得了最先进的性能。
本文提出的主要思想是,语义上下文原型感知是WSSS中单个对象定位的基础。CPAL通过属性搜索©而不是单一原型(a)和普通上下文原型(b)对不同属性(如猫)进行自适应感知。这种特定于属性的自适应不仅减轻了(b)错误识别相似类别(如狗)的错误风险,还确保了完整目标区域的准确激活。
论文发表单位:
- AIM Lab, Faculty of IT, Monash University
- Faculty of IT, Monash University
- Weill Cornell Medicine, Cornell University
- Xi’an Jiaotong-Liverpool University
- Ann Arbor, University of Michigan
一、引言
研究空白、创新点、主要贡献
- 语义分割是计算机视觉领域的一项基本任务。弱监督语义分割(WSSS)已经成为社区中的一种流行方法,从弱标签中学习,如图像级标签 [ 25 , 30 ] ^{[25,30]} [25,30],涂鸦 [ 37 , 56 ] ^{[37,56]} [37,56]或边界框 [ 11 , 31 , 49 ] ^{[11,31,49]} [11,31,49],而不是像素级标注。大多数WSSS方法利用类激活映射(CAM) [ 74 ] ^{[74]} [74]为目标物体提供定位线索,从而将视觉概念映射到像素区域。
- WSSS的关键是生成对整个对象有更好覆盖的CAM。最近的研究 [ 3 , 51 , 59 , 71 ] ^{[3,51,59,71]} [3,51,59,71]主要旨在通过整合上下文知识来优化模型分割的准确性和稳定性。受表示学习(representation learning)进展的启发 [ 15 , 62 ] ^{[15,62]} [15,62],一些研究 [ 36 , 50 , 69 , 70 ] ^{[36,50,69,70]} [36,50,69,70]引入语义上下文和实例知识进行全局范围的上下文建模,以更准确地解析实例的语义特征。但它们忽略了类内差异大的挑战,即使在同一幅图像中,属于同一类的区域也可能表现出非常不同的外观。背景知识(全局类内特征)和实例知识(独特特征)之间的偏差使得标签难以从图像级到像素级传播。本文认为,缓解实例和上下文之间的知识偏差,可以捕获更准确和完整的区域。此外,加入了额外的监督信号,以加快减轻知识偏差。
- 类原型表示通过减小偏差,在BDCSPN [ 40 ] ^{[40]} [40]等少样本学习算法中显示了其潜在的揭示特征模式的能力。原型学习理论 [ 58 , 75 ] ^{[58,75]} [58,75]指出,原型可以表示对象的局部特征、全局特征或特定属性。基于对象特征的类内变异,实例原型 [ 7 ] ^{[7]} [7]可以动态表征特定图像的判别特征。如图1 (a)所示,暖色只有少数像素被激活,这表明大量代表物体的像素被错误地归类为背景。此外,整合上下文知识的原型 [ 76 ] ^{[76]} [76]具有捕捉更具体和准确的类别语义模式的能力。与单个实例原型相比,它们能够更完整地捕获对象区域(图1 (b))。语境知识的引入虽然增强了原型处理语义信息的能力,但实例和语境之间的知识偏差导致原型错误地激活相似或高度共现的类别(如图1 (b)中的猫和狗)。
- 本文提出了一种上下文原型感知学习策略(Context Prototype-Aware learning, CPAL),用于从上下文的聚类结构中挖掘有效的特征属性(图1 (c)。探索了与特定图像相关的其他实例,以构建上下文原型作为候选邻居。然后,在候选邻居集合中进行类内属性搜索,定位当前实例原型作为锚点;同时,设计了一种反映属性间相关性的两两正性得分,旨在识别与当前属性高度相关的上下文原型(即软邻居)。在应用各自的正性分数后,这些原型对锚定实例的贡献被动态调整,从而明确减轻与类内多样性和实例属性相关的偏差。
- 该方法的核心是原型感知。通过软度量实例原型与上下文原型之间的距离来感知实例属性。在鲁棒性估计方面,提出了分类支持库,克服了小批量的局限性,以特征到库的方式观察类内特征多样性,使类分布可以全局逼近。然而,由于实例特征数量有限,相对于上下文的特征分布存在偏差,影响了实例的精确感知。为此,提出一种特征分布对齐方法,通过对稀疏的实例特征引入移位项 δ δ δ,将其推向类别支持库的稠密特征分布。
- 在PASCAL VOC 2012 [ 14 ] ^{[14]} [14]和MS COCO 2014 [ 38 ] ^{[38]} [38]数据集上,在各种WSSS设置中评估了所提出方法,取得了最先进的性能。其贡献总结如下:
(1)本文提出一种上下文原型感知学习(CPAL)策略,通过缓解实例和上下文之间的知识偏差来生成更准确和完整的定位地图。
(2)为了准确地感知目标实例的属性,提出了一种结合动态支持库的特征对齐模块。
(3)本文提出一种由自监督学习和上下文原型感知学习组成的统一学习框架,两种方案相互补充。实验表明,该方法带来了显著的改进,并取得了最先进的性能。
二、最近工作
弱监督语义分割:Weakly Supervised Semantic Segmentation
- 使用图像级标签的弱监督语义分割通常生成CAM作为生成像素级伪标签的种子。CAM的一个典型缺点是激活不完全和不准确。为了解决这个缺点,最近的工作提出了各种训练方案,如对抗性删除 [ 27 , 28 , 52 , 68 ] ^{[27,28,52,68]} [27,28,52,68],区域增长 [ 22 , 61 ] ^{[22,61]} [22,61],探索边界约束 [ 4 , 34 , 44 ] ^{[4,34,44]} [4,34,44]。单图像学习和推理模型 [ 2 , 34 ] ^{[2,34]} [2,34]侧重于对单个图像中的特征进行更深入的理解,以生成更完整的CAM。SIPE [ 7 ] ^{[7]} [7]提取定制原型的多尺度特征,扩展粗略的目标定位图,获得完整的目标区域范围。
- 虽然过去的工作只单独考虑每个图像,但最近的工作专注于在数据集中不同图像之间获得丰富的语义上下文。最近的工作 [ 16 , 51 ] ^{[16,51]} [16,51]通过捕获图像之间的成对关系来解决跨图像语义挖掘。和 [ 13 , 36 , 70 ] ^{[13,36,70]} [13,36,70]进一步对一组图像中更复杂的关系进行高阶语义挖掘。同时,为了加强特征空间的表示关系(在整个数据集上探索对象模式),RCA [ 76 ] ^{[76]} [76]引入了记忆库来存储高质量的类别特征并进行上下文建模。CPSPAN [ 24 ] ^{[24]} [24]提出对齐不同视图下配对实例的特征表示,这种对齐也被引入到不同上下文下的数据分布中 [ 73 ] ^{[73]} [73]。与以往的上下文知识应用工作不同,该方法可以自适应地感知语义属性和类内变化,从而产生更完整的CAM激活区域。
原型学习:Prototype-based Learning
- 基于原型的学习在少样本学习 [ 48 ] ^{[48]} [48]、零样本 [ 19 ] ^{[19]} [19]和无监督学习 [ 67 ] ^{[67]} [67]中得到了很好的研究。值得注意的是,许多分割模型可以被视为基于原型的学习网络 [ 17 , 41 , 58 , 65 , 75 ] ^{[17,41,58,65,75]} [17,41,58,65,75],揭示了在图像分割中应用的可能性。 [ 13 ] ^{[13]} [13]提出了一种基于原型的度量学习方法,在访谈和视图内正则化中强制特征级一致性。LPCAM [ 8 ] ^{[8]} [8]还使用原型学习来提取物体的丰富特征。本文在上下文的聚类结构中学习有效的特征属性,以在细粒度层次上对各种对象特征进行建模。
三、方法详解
- WSSS首先训练分类网络识别每个类别对应的目标区域,然后细化生成伪标签作为语义分割网络的监督。图2说明了所提出方法的概述。该框架建立在分类网络的基础上,如图2 (a)所示,在第3.1节中描述。它由两个监督信号组成:分类损失和自监督损失。该方法鼓励了通过原型感知学习预测的CAM和分类器之间的一致性,隐式地激励模型学习更多的判别性特征。这里将实例原型建模为锚,并从支持库中提取上下文原型作为候选邻居集,这在3.2节中描述。所提出方法的核心是原型感知,以捕捉类内变化,如图2 (b)所示,在第3.3节中详细说明。软测量每个候选邻居对当前实例的积极程度,有选择地过滤并调整其贡献。同时,特征分布对齐引导当前实例特征向bank中密集特征的聚类中心方向移动。
所提的统一学习框架综述。(a)显示图像标签引导的 W S S S WSSS WSSS(从分类到分割)。上分支描述分类网络 θ θ θ,识别每个类别对应的目标区域,以最小化 L B C E L^{BCE} LBCE。引入一种使用上下文原型感知学习的自监督学习范式,以提供一个更完整的CAM,监督初始CAM并最小化 L S e l f L^{Self} LSelf。下面的分支细化这些cam(例如,denecrf [ 26 ] ^{[26]} [26])以形成伪标签来监督语义分割网络。(b)概述了基于上下文原型感知学习的策略。在小批量中,利用CAM和提取的特征 f f f生成实例原型 P n I P^I_n PnI,更新支持库。然后,利用bank构建上下文原型集 P n c P^c_n Pnc;然后将特征分布对齐应用于当前实例特征,添加一个偏移项 δ n δ_n δn,以引导它们朝着bank中密集特征的簇。然后,基于 P n c P^c_n Pnc对 P n I P^I_n PnI进行软邻居测量,以 P n I P^I_n PnI作为锚点;最后,求出两个特定属性之间的正属性值 w i w_i wi。该机制选择 K K K个软正近邻 P ~ n c \widetilde P^c_n P nc来生成PACAM。
3.1. 自监督优化范式:Self-Supervised Optimization Paradigm
Network Optimization
- 该框架建立在一个分类网络上,利用该网络
θ
θ
θ从图像标签中提取有效的监督,为每个类别捕获目标区域(即CAM)。本文提出上下文原型感知学习来生成更完整的原型感知CAM (PACAM),为初始CAM提供额外的监督信号,并形成自监督范式。这种范式的关键元素是一致性正则化,隐式地减少了区分性和缺失像素之间的特征距离,鼓励模型学习更一致和更有区别的特征。这个简单的修改带来了显著的改进。统一损失函数优化模型:
其中 λ B C E λ_{BCE} λBCE和 λ S e l f λ_{Self} λSelf为系数, L B C E L^{BCE} LBCE为分类损失, L S e l f L^{Self} LSelf为自监督损失。以下各节将详细描述损失。
Classification Loss and Class Activation Maps
数据集
I
I
I中的每个训练图像
I
∈
R
w
×
h
×
3
I∈R^{w×h×3}
I∈Rw×h×3只与一个图像级标签向量
y
=
{
y
n
}
n
=
1
N
∈
{
0
,
1
}
N
y = \{y_n\}^N_{n =1}∈\{0,1\}^N
y={yn}n=1N∈{0,1}N相关联,因为
N
N
N是预先指定的类别。CAM通过训练分类网络来定位前景目标。CAM以小批量图像
I
I
I作为输入,提取特征图
f
∈
R
W
×
H
×
D
f∈R^{W×H×D}
f∈RW×H×D,具有
D
D
D通道和
H
×
W
H×W
H×W空间大小。为了弥合分类任务和分割任务之间的差距,分类器权重
W
n
W_n
Wn和全局平均池化(GAP)层被用于产生逻辑预测KaTeX parse error: Can't use function '\^' in math mode at position 1: \̲^̲y_i∈R^N。在训练过程中,使用二元交叉熵损失如下:
其中
σ
(
⋅
)
σ(·)
σ(⋅)为sigmoid函数,得到粗略的前景和背景位置信息。类别激活函数图
M
f
=
{
M
n
}
n
=
1
N
M_f = \{M_n\}^N_{n=1}
Mf={Mn}n=1N N个前景类别可以表示为:
考虑到背景在分割任务中的重要性,基于
M
f
M_f
Mf,遵循
[
60
]
^{[60]}
[60]估计背景激活图
M
b
=
1
−
m
a
x
1
≤
n
≤
N
M
n
M_b = 1−max_{1≤n≤N} M_n
Mb=1−max1≤n≤NMn。将处理后的背景激活图与前景激活图作为一个整体,即
M
=
M
f
∪
M
b
M = M_f∪M_b
M=Mf∪Mb来帮助建模背景知识。
3.2. 原型建模:Prototype Modeling
受原型学习的启发,原型感知策略旨在有效地探索候选邻居集合内的特征。本文建议在每个类的上下文原型集中进行原型搜索,定位当前实例原型作为锚点,以增强对实例特征的理解
Modeling Instance Prototype as Anchor
对于每个图像
I
I
I,特征映射通过投影头
v
v
v映射到投影空间
z
=
v
(
f
)
z = v(f)
z=v(f)进行实例原型设计。每个实例原型代表了基于
M
M
M在
I
I
I中观察到的类别的区域语义。具体来说,对于
I
I
I中出现的第
n
n
n个类别(即
y
c
=
1
y_c = 1
yc=1),其投影特征通过掩码平均池化(MAP)
[
47
]
^{[47]}
[47]总结为一个向量
P
n
I
∈
R
D
P^I_n∈R^D
PnI∈RD:
其中
P
n
=
1
(
M
n
>
τ
)
∈
{
0
,
1
}
W
×
H
P_n = 1 (Mn > τ)∈\{0,1\}^{W×H}
Pn=1(Mn>τ)∈{0,1}W×H是一个二进制掩码,只强调其激活图中第n类的强激活像素。
1
(
⋅
)
1(·)
1(⋅)是一个指标函数,阈值
τ
τ
τ是一个超参数,表示可靠性得分的阈值。在这里,
P
n
I
P^I_n
PnI是紧凑和轻量级的,允许可行的探索它与许多其他样本的关系,并将其定位为一个锚。
Modeling Context Prototypes as Candidate Neighbors
我们假设图像或批次中的分类特征只提供了类别的有限视图。因此,我们利用支持库作为候选集
C
C
C,其中每个元素是不同类别的上下文原型。在使用样本批处理进行网络训练时,将其实例原型
P
n
I
P^I_n
PnI存储在
C
C
C中,并采用先进先出策略来更新候选集。该集合为每个原型类别保持了相对较大的长度,以充分提供潜在的上下文原型。在此基础上,采用
k
−
m
e
a
n
s
k-means
k−means在线聚类将每个类别细化为聚类后的原型群
G
=
{
G
i
}
i
=
1
N
p
G = \{G_i\}^{N_p}_{i=1}
G={Gi}i=1Np,以深入揭示每个类别的属性。我们对
G
G
G的每个聚类原型组进行平均操作,生成
N
p
N_p
Np候选邻居
p
i
p_i
pi,如下所示:
其中
r
j
r_j
rj为第
j
j
j个实例原型,属于第
i
i
i个簇组
G
i
G_i
Gi。
p
i
p_i
pi表示候选邻居集合
P
n
c
=
{
p
i
}
i
=
1
N
p
P^c_n=\{p_i\}^{N_p}_{i=1}
Pnc={pi}i=1Np的第
i
i
i个上下文原型。
3.3. 情景原型感知学习:Context Prototype-Aware Learning
- 利用锚点原型和3.2节中的候选邻居集合,候选邻居集合进一步感知或支持锚点特征。情境原型感知学习可以测量和调整这种支持程度。
Soft Positive Neighbor Identification
- 原型选择在所提出的方法中至关重要,因为它在很大程度上决定了监督的质量。实例原型可以具体地表示当前图像的类别属性,而上下文原型则表现出更全面和多样化的类别模式。该感知策略采用积极度评分
w
i
w_i
wi来衡量类别中候选邻居与当前实例属性的相关性。本文建议选择由正性分数调整的
t
o
p
−
K
top-K
top−K个邻居,位于离锚点很近的地方。软正邻居(soft positive neighbor)可以表示为:
其中 d ( ) d() d()表示作为测量指标的余弦相似度, P n c P^c_n Pnc表示为当前实例量身定制的 t o p − K top-K top−K个上下文感知原型。
Positiveness Predictions
我们设计了成对的积极度得分,以柔和地衡量(以非二元形式)实例原型和同一类别中的候选邻居之间的相关性。对于原型对
(
p
i
,
P
n
I
)
(p_i, P^I_n)
(pi,PnI),积极度得分
w
i
w_i
wi可以计算为:
其中
l
1
(
⋅
)
l1(·)
l1(⋅)和
l
2
(
⋅
)
l2(·)
l2(⋅)是特征变换中的无参数单位映射层。
γ
i
γ_i
γi是一个调整正性得分
w
i
w_i
wi的比例因子。4.2节探讨了得分
w
i
w_i
wi的各种结构。
证据可以在Appendix A中找到。Chaim 1表明,我们优化模型以最大化上下文原型和同一类别的当前实例之间的相似性,与相应的积极度分数成正比。有效地将知识从自监督分支迁移到模型,以及模型的泛化性能。
Feature Distribution Alignment
稀疏特征
[
21
]
^{[21]}
[21]和类内多样性给准确表示一致的特定类别特征带来了挑战,阻碍了类别区分。本文假设实例特征和类内特征之间存在偏差。为解决这个问题,本文指导特征对齐其特定类别的密集聚集特征,以增强类内特征的紧凑性。考虑到小批量归一化
[
23
]
^{[23]}
[23]或实例归一化
[
54
]
^{[54]}
[54]遵循批量学习的趋势,通过引入偏移项
δ
n
δ_n
δn对小批量特征进行对齐,将它们推向聚类中心。推导过程如下。
定义了最优余弦相似度评估指标(OCSEM)来评估当前样本与其他样本之间的余弦相似度,旨在通过最大化该指标来提高模型精度。优化目标定义为:
其中
p
i
p_i
pi为第n类的候选邻居集合
P
n
c
=
{
p
i
}
i
=
1
N
p
P^c_n=\{p_i\}^{N_p}_{i=1}
Pnc={pi}i=1Np的上下文原型,
P
n
,
q
I
P^I_{n,q}
Pn,qI是mini-patch集合
P
n
b
=
{
P
n
,
q
I
}
q
=
1
Q
n
P^b_n=\{P^I_{n,q}\}^{Q_n}_{q=1}
Pnb={Pn,qI}q=1Qn中与之对应的实例原型。
Q
n
Q_n
Qn表示mini-batch小批次中第
n
n
n类的原型数量。我们假设偏差可以通过在实例特征中添加一个移位项
δ
n
δn
δn来减小。这个
δ
n
δn
δn应该遵循目标:
我们假设每个原型都有
P
n
,
q
I
P^I_{n,q}
Pn,qI 可以表示为
p
i
+
∈
i
,
q
p_i+∈_{i,q}
pi+∈i,q。式9可以进一步形式化为:
为了最大化余弦相似度,我们应该最小化以下目标:
这样就可以计算出
δ
n
δ_n
δn项:
3.4. 原型感知CAM和自监督损失:Prototype-Aware CAM and Self-Supervise Loss
Prototype-Aware CAM
由于原型的含义明确,预测的CAM过程可以直观地理解为检索最相似的原型。对于式6中的每个原型
P
~
n
c
\widetilde P^c_n
P
nc,我们计算每个位置的特征与相应类别原型之间的余弦相似度。然后将这些相似度图汇总如下:
其中
∥
⋅
∥
∥·∥
∥⋅∥表示向量的
L
2
L_2
L2范数。
M
~
n
(
j
)
\widetilde M_n(j)
M
n(j) 表示第
n
n
n类在像素
j
j
j处的PACAM。
Self-Supervise Loss
为了进一步利用上下文知识,我们引入了一种自监督学习范式,该范式鼓励原型感知预测和监督分类器输出之间的一致性。这促进了模型识别更多的判别特征,并将原型感知知识注入到特征表示中,促进了整个训练周期的协同优化。两个CAM的
L
1
L_1
L1归一化定义一致性正则化:
式中
M
M
M和
M
~
\widetilde M
M
分别表示原始CAM和PACAM。
四、实验安排
4.1. 数据集和实施细节:Datasets and Implementation Details
Dataset and Evaluation Metric
在两个基准上进行实验:PASCAL VOC 2012 [ 14 ] ^{[14]} [14]有21个类,MS COCO 2014 [ 38 ] ^{[38]} [38]有81个类。对于PASCAL VOC 2012,在 [ 7 , 30 , 35 , 60 ] ^{[7,30,35,60]} [7,30,35,60]之后,我们使用了带有10,582张注释图像的增强SBD [ 18 ] ^{[18]} [18]。我们从以下方面评估了CPAL: i)在VOC 2012训练上生成的伪分割标签的质量,以及ii)在VOC 2012 val/test和COCO 2014 val上的语义分割。在这两种情况下,平均交比并(mIoU) [ 42 ] ^{[42]} [42]被用作度量。VOC 2012测试成绩来源于官方测评服务器。
Implementation Details
在我们的实验中,采用ImageNet
[
12
]
^{[12]}
[12]预训练的ResNet50
[
20
]
^{[20]}
[20]作为主干,输出步长为16,其中分类器用输出通道20替换全连接层。增强策略与
[
1
,
7
,
8
]
^{[1,7,8]}
[1,7,8]相同,包括随机翻转、缩放和裁剪。该模型在8个Nvidia 4090 gpu上以批处理大小16进行训练。采用SGD Optimizer对我们的模型进行5个epoch的训练,动量为0.9,权值衰减为1e-4。将骨干层和新增层的学习率分别设置为0.1和1。我们使用一个以0.9的幂衰减的聚学习调度程序作为学习率。
在式1中,损耗系数λBCE和λSelf均设为1。对于VOC 2012, 式4中的阈值τ设为0.1。每个类存储区域嵌入的支持库大小,大小设置为1000,以避免显著的支持消耗。第3.2节中的k-means原型聚类只在每个epoch的开始执行一次,并且在Eq. 6中将每个类的原型数Np设置为50,并且将top-K候选邻居设置为20。对于分割网络,我们用DeepLabv2
[
6
]
^{[6]}
[6]和ResNet101和ResNet38 backbone网进行了实验。更多细节(包括COCO)见 Appendix。
4.2. 消融实验:Ablation study
为了研究我们方法中每个组成部分的贡献,我们对2012年VOC数据集进行了消融研究。所有实验都使用Resnet-50作为backbone。
Effectiveness of each component
在表1中,我们进行了消融研究来证明我们方法的有效性。我们使用仅经过分类监督训练的模型(实验一)作为基线。然后,在实验二中引入了一种朴素的上下文原型学习策略,该策略在训练集上仅带来有限的mIoU收益。实验三表明,引入上下文原型感知学习(top-K候选邻居集和积极性预测)来生成PACAM显著提高了+3.3%的性能。在实验四中,当引入特征对齐模块时,性能进一步提高了+2.3%。在实验五中,当引入自监督训练作为补充监督时,性能进一步提高了+5.7%,这表明它在我们的框架中的重要性。一致性损失迫使模型专注于细粒度的语义细节,增强其对内在结构和语义特征的感知。
Effectiveness of candidate neighbors and positiveness
我们分析候选邻居的重要性和积极性,如表2所示。去除正性并利用所有邻域进行预测,CAM的Miou准确率从62.5%下降到60.3%。这表明积极性不仅仅是一种简单的点缀,而是为模型提供了一种有效的机制。它使模型能够在学习过程中自适应地有选择地关注对任务贡献最大的邻居,而忽略对预测没有信息的邻居。在表2的第三块中,我们也进行了实验来分析邻居数量的影响。一方面,拥有足够数量的邻居增强了特征的多样性。另一方面,包含相关性较低的原型可能会在训练过程中引入过多的噪声,从而降低模型感知判别特征的能力。提出的软度量引入了成对正性,以调整不同原型对Eq. 1中的锚实例的贡献。我们应用各种相似度指标来计算积极度得分。如表3所示,研究了四个选项:曼哈顿距离(L1),欧几里得距离(L2),余弦相似度,和点积。与其他策略相比,点积显示出明显优越的性能,并被用作我们衡量积极性的方法。
Effectiveness of feature alignment
在表1中,我们展示了通过减少分布偏差而获得的性能改进结果。此外,我们在图3中使用t-SNE进行了视觉比较
[
55
]
^{[55]}
[55]。结果表明,在对特征分布进行对齐后,该模型生成的聚类更紧凑,簇间可分性更高。调整动态shift变量有助于缓解同一类的实例特征之间的差异,使属于同一类的实例更加相似。这反过来又有助于模型更准确地区分不同类别的实例。
Analysis of Hyper-parameters
Analysis of Hyper-parameters
我们进行了超参数敏感性分析,改变了诸如(a)生成0-1种子掩码的阈值τ等值。图4 (a)表明,最优
τ
τ
τ值为0.1。此外,我们检查了(b)支持集的长度,发现更大的支持集增强了模型的性能。从图4 (b)中可以看出,使用最大集训练的编码器准确率最高,达到62.5%,表明容量的增加使模型能够找到更多相关的邻居来支持。
Qualitative Analysis
我们在图5 (a)中可视化了原型感知的响应区域和预测结果。它清楚地表明原型与特定的实例属性相关联。具体来说,例如,给定图像(例如,马和猫),每个原型对应于实例的不同部分,从而能够更好地建模语义对象中的类内变化。在图5 (b)中,我们对我们方法的不同组成部分进行了烧蚀研究的可视化。当移除原型意识(积极性和top-K邻居)时,模型错误地激活了强烈共同发生的区域(例如,火车和铁路)或表现出相似的外观(例如,猫和狗),这表明缺乏准确的学习和对特定特征的判别能力。在没有自监督损失
L
S
e
l
f
L_Self
LSelf的情况下,CAM表现为欠激活,表明对类别特征学习不足。这些发现表明,我们的方法在引入这些成分后,可以更准确地感知和区分各种类别属性。
4.3. 对比实验:Comparisons with State-of-the-Art Methods
Improved Localization Maps
由于所提出的CPAL不修改CAM网络的体系结构,它只是将CPAL分支作为监督集成到多种方法中。表4给出了将CPAL应用于各种知名方法(IRN
[
1
]
^{[1]}
[1]、AMN
[
33
]
^{[33]}
[33]、MCTformer
[
66
]
^{[66]}
[66]和CLIP-ES
[
39
]
^{[39]}
[39])的结果,并显示了在VOC 2012上定位地图的改进。例如,将CPAL纳入AMN可使seed和pseudo mask的性能分别提高3.6%和2.1%。当将CPAL插入CLIP-ES模型时,种子增加了1.1%。图5显示了与基线AMN和MCTformer的对比,表明CPAL可以有效捕获高质量的定位地图。
Improved Segmentation Results
表5显示了使用我们的方法生成的伪标签训练的语义分割模型的性能。伪标签用于DeepLabV2分割模型的训练。与相关作品的比较。我们的AMN+CPAL在VOC上取得了最先进的结果(验证集的mIoU为72.5%,测试集的mIoU为72.9%)。在更具挑战性的MS COCO数据集上,我们的MCTformer+CPAL(以ResNet-38为主干)优于基于ResNet-38的最新结果AMN和所有相关工作。对于CLIP-ES, CPAL提高了性能(在COCO val上增加了1.4% mIoU)。在这两个数据集上的优异结果证实了我们的CPAL的有效性,它准确地捕获了语义特征和对象结构。
五、总结
- 本文为WSSS方法提出一种新的上下文原型感知学习(CPAL)策略,旨在缓解实例和上下文之间的知识偏差。该方法在上下文聚类中挖掘有效的特征属性,并自适应地选择和调整上下文原型以增强表示能力。该方法的核心是原型感知,通过上下文感知原型来准确捕捉类内变化和特征分布对齐。在各种环境下的广泛实验表明,所提出的方法优于现有的最先进方法,消融研究揭示了CPAL的有效性。