关注公众号,发现CV技术之美
本文分享论文『Siamese Image Modeling for Self-Supervised Vision Representation Learning』,由清华(黄高组)&商汤(代季峰组)&上海AI Lab&CUHK提出Siamese Image Modeling,兼具linear probing和密集预测性能!
详细信息如下:
论文链接:http://arxiv.org/abs/2206.01204
01
摘要
自监督学习(SSL)在各种下游视觉任务上都提供了优异的性能。目前提出了两种主流SSL框架,即实例鉴别(ID)和掩蔽图像建模(MIM)。ID将来自同一图像的不同视图的表示拉到在一起。它在 linear probing方面表现良好,但在检测性能方面较差。另一方面,MIM在给定mask图像的情况下重建原始内容。它擅长密集预测,但在linear probing上表现不佳。它们的区别是由于忽视了语义对齐或空间敏感性的表示要求。
具体而言,作者观察到:(1)语义对齐要求将语义相似的视图投影到附近的表示中,这可以通过对比不同的视图和强数据增强来实现;(2) 空间敏感性要求对图像中的局部结构进行建模。因此,使用掩蔽图像预测密集表示是有益的,因为它模拟了图像内容的条件分布。
在这些分析的推动下,作者提出了Siamese Image Modeling (SIM),该模型基于来自同一图像但具有不同增强的另一个mask视图,预测增强视图的密集表示。本文的方法使用带有两个分支的Siamese网络。在线分支对第一个视图进行编码,并根据这两个视图之间的相对位置预测第二个视图的表示。目标分支通过对第二个视图进行编码来生成目标。通过这种方式,可以分别使用ID和MIM实现可比较的linear probing和密集预测性能。
02
Motivation
自监督学习(SSL)长期以来一直是视觉领域追求的目标。它使我们能够在没有人工标注标签的情况下训练模型,从而可以利用大量未标记的数据。SSL在各种下游任务中提供了与监督学习baseline相比的竞争结果,包括ImageNet微调和检测/分割任务的迁移学习。
为了以SSL方式有效地训练模型,研究人员设计了所谓的“借口任务(pretext tasks)”来生成监控信号。最典型的框架之一是实例区分(ID),其核心思想是将来自同一图像的不同增强视图的表示拉在一起,避免表示崩溃。目前已经提出了ID的不同变体,包括对比学习、不对称网络和特征去相关。
最近,另一个SSL框架逐渐吸引了更多的关注,即掩蔽图像建模(MIM)。MIM方法训练模型从掩蔽图像重建原始内容。这种做法有助于了解图像中丰富的局部结构,从而在目标检测等密集预测任务中获得优异的性能。然而,MIM没有像ID那样的良好线性可分性,并且通常在few-shot分类设置下表现不佳。
ID和MIM方法都有各自的优缺点。作者认为,这种困境是由于忽视了语义对齐或空间敏感性的表示要求造成的。具体而言,MIM在每个图像内独立运行,而不考虑图像间的关系。语义相似图像的表示没有很好地对齐,这进一步导致MIM的linear probing性能较差。另一方面&#x