本文分享论文Hunting Attributes,一种基于上下文原型感知学习(CPAL)的弱监督语义分割方法,旨在通过缓解实例与上下文之间的知识偏差来改善类激活图的完整性。 

本工作由Monash Medical AI Group (MMAI)提出。Monash MMAI是由Zongyuan Ge(戈宗元)副教授带领,研究方向包括但不限于医学影像处理,医学人工智能。MMAI目前已在JAMA,柳叶刀子刊,Nature子刊,NeurIPs, MICCAI及CVPR等顶级学术会议上发表数篇工作。

论文: https://arxiv.org/abs/2403.07630

代码:https://github.com/Barrett-python/CPAL

01 摘要

CPAL方法通过上下文感知地捕捉对象特征的细微差异来深化对实例的理解,这一过程得益于对上下文信息的精妙利用。它不仅仅关注原型的表征能力,还通过特征分布对齐技术和一个创新的训练框架来进一步优化这种能力。这个训练框架独到之处在于它融合了传统的标签引导分类监督和新颖的原型引导自我监督,两者相得益彰。通过这种方法,在PASCAL VOC 2012和MS COCO 2014两个标准数据集上的实验不仅验证了CPAL的有效性,还展示了它在提升模型性能方面的显著优势,推动了该领域的进步至新的高度。

02 Introduction

背景:

语义分割在计算机视觉的世界里扮演着至关重要的角色,它让机器能够深入理解图像中的每一个细节,正如人类分辨事物那样。想象一下,通过仅仅观察一幅图像,机器就能准确地告诉我们图中每个对象的确切位置,这不仅是技术上的一大步,更是向着让机器拥有更人性化视觉理解迈进的一大步。在这个领域中,弱监督语义分割(WSSS)展示了它独特的价值。它利用的是相对简单的标签——可能只是一些图像级别的标签、简单的涂鸦或是大致的边界框。这种方法在资源受限的情况下格外受到欢迎,因为它不需要昂贵且耗时的像素级标注。简而言之,WSSS为那些希望用较少的资源投入获得有效图像理解能力的人提供了一个实用的选择。

现有方法的局限性:

在弱监督语义分割任务重,大多数方法都依赖于类激活映射(CAM)的技术来定位图像中的目标对象。简单来说,CAM就像是一张热力图,标示出图像中最可能属于某个类别的区域。然而,这些方法面临的主要挑战是,类激活映射(CAM)往往只能标识出目标对象的局部区域。

为了提升模型在划分图像时的准确性和稳定性,许多研究尝试引入更多的上下文信息。这种方法本质上是试图让机器在看到一只猫的脸时,能通过理解它所在的环境——比如它可能躺在窗台上——来推测出它全身的轮廓。然而,这里有一个关键的问题被忽略了:即使是同一类别的对象,它们在不同情境下的外观也可能大不相同,我们称之为类内变异。同时,上下文信息和实例(即具体的对象)之间的知识差异也没有得到充分考虑。例如,某些特定环境下可能存在特定类别的对象(如猫),但若不对这些对象的细节特征进行精确分析,就可能导致激活相似的类别部分——例如,将实际上躺在窗台上的小狗错误地识别为猫。

研究动机:

理解和缓解实例与上下文之间的知识偏差对于改善WSSS性能至关重要。引入原型学习和特征布对齐以提高定位的准确性和完整性。

本论文的核心思想在于强调了在弱监督语义分割(WSSS)过程中,通过语义上下文原型的深度意识来精准地定位各个对象。我们的方法,CPAL,能够灵活捕捉不同属性(比如猫)的特征,这一点与依赖单一原型(图a)或常规上下文原型(图b)的方法形成鲜明对比。这种针对特定属性的适应性不仅大大降低了将相似类别(如狗)误识别的可能性,而且还保证了能够精确激活代表完整对象区域的像素。简而言之,CPAL通过对细节的敏感捕捉和对上下文的深刻理解,实现了在挑战性的WSSS任务中对对象的精确定位和识别。

CPAL~_目标对象

03 提出的方法

1. 在这项工作中,我们提出了一种名为上下文原型感知学习(CPAL)的学习策略,从上下文的集群结构中挖掘有效的特征属性。具体来说,我们研究了被视为软邻居的其他相关实例,以在构建上下文原型时支持特定图像。然后,我们在类上下文原型集中进行属性搜索,以当前实例原型作为锚点。与此同时,设计了一种成对的“positiveness”评分,并用作评估两个特定属性之间的相关性。然后应用positiveness调整不同原型对锚定实例的贡献度,以明确地缩小了类内多样性和对象属性之间的差异。

2. 我们方法的核心是原型感知。我们估计实例原型与上下文原型之间的距离来感知实例的特征属性。为了进行鲁棒估计,我们提出了类别记忆库,以打破对小批量的限制,这样可以以特征到记忆库的方式观察类内特征多样性,其中可以全局近似类分布。此外,由于实例特征的数量较少,与上下文的特征分布存在显著差异,这会损害对实例特征属性的精准感知。因此我们提出特征分布对齐,通过向实例特征导入一个位移项来减小差异,驱使它们向类别记忆库的稠密分布特征移动。

CPAL~_人工智能_02

该图中展示了我们提出的统一学习框架概述。

(a) 本节阐述了利用图像标签指导下的弱监督语义分割过程,即从分类到分割的转换。上层分支介绍了分类网络θ如何识别出与各个类别相对应的对象区域,并通过最小化二元交叉熵(BCE)损失来进行优化。此外,引入了一种利用上下文原型感知学习的自监督学习范式,旨在提供更完整的类激活映射(CAM),通过最小化自监督损失对初始CAM进行监督与优化。下层分支则进一步细化这些CAM(如,通过DenseCRF技术),生成用以指导语义分割网络训练的伪标签。

(b) 本部分概述了基于上下文原型感知学习的策略。在小批量训练过程中,结合CAM和提取的特征来生成实例原型,并对支持库进行更新。利用该库构建上下文原型集,随后对当前实例特征进行特征分布对齐,通过添加位移项促使特征向支持库中密集特征的聚类中心靠拢。继而,基于软邻居策略进行软度测量,最终根据两个特定属性间的正性度量值,选取K个软正邻居以生成改进的原型感知类激活映射(PACAM)。     

04 实验

可视化:

在PASCAL VOC训练集上进行的定性分析展示了:(a) 通过利用各种软正原型来获取改进的原型感知类激活映射(PACAM),从而增强模型对图像内容的理解能力。(b) 对于消融研究的两个关键构成要素——缺乏原型感知学习(即不使用top-K候选邻居集和正性度量)及自监督损失——进行了视觉对比分析。(c) 将我们的方法作为增强插件应用于AMN和MCTformer等架构上,显著提升了这些网络在对象定位任务上的性能表现。

CPAL~_目标对象_03

05 贡献总结

  • 提出了一种新的WSSS策略,通过缓解实例与上下文之间的知识偏差,生成更准确和完整的定位图。
  • 通过特征对齐和动态支持bank,提高了模型对实例属性的感知能力。
  • 在PASCAL VOC 2012和MS COCO 2014数据集上的实验验证了方法的有效性,取得了最先进的性能