清华&商汤&上海AI&CUHK提出Siamese Image Modeling，兼具linear probing和密集预测性能！...

最新推荐文章于 2022-07-07 13:11:28 发布

我爱计算机视觉

最新推荐文章于 2022-07-07 13:11:28 发布

阅读量452

点赞数

文章标签：大数据算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/moxibingdao/article/details/125476740

版权

关注公众号，发现CV技术之美

本文分享论文『Siamese Image Modeling for Self-Supervised Vision Representation Learning』，由清华（黄高组）&商汤（代季峰组）&上海AI Lab&CUHK提出Siamese Image Modeling，兼具linear probing和密集预测性能！

详细信息如下：

论文链接：http://arxiv.org/abs/2206.01204

摘要

自监督学习（SSL）在各种下游视觉任务上都提供了优异的性能。目前提出了两种主流SSL框架，即实例鉴别（ID）和掩蔽图像建模（MIM）。ID将来自同一图像的不同视图的表示拉到在一起。它在 linear probing方面表现良好，但在检测性能方面较差。另一方面，MIM在给定mask图像的情况下重建原始内容。它擅长密集预测，但在linear probing上表现不佳。它们的区别是由于忽视了语义对齐或空间敏感性的表示要求。

具体而言，作者观察到：（1）语义对齐要求将语义相似的视图投影到附近的表示中，这可以通过对比不同的视图和强数据增强来实现；（2）空间敏感性要求对图像中的局部结构进行建模。因此，使用掩蔽图像预测密集表示是有益的，因为它模拟了图像内容的条件分布。

在这些分析的推动下，作者提出了Siamese Image Modeling （SIM），该模型基于来自同一图像但具有不同增强的另一个mask视图，预测增强视图的密集表示。本文的方法使用带有两个分支的Siamese网络。在线分支对第一个视图进行编码，并根据这两个视图之间的相对位置预测第二个视图的表示。目标分支通过对第二个视图进行编码来生成目标。通过这种方式，可以分别使用ID和MIM实现可比较的linear probing和密集预测性能。

Motivation

自监督学习（SSL）长期以来一直是视觉领域追求的目标。它使我们能够在没有人工标注标签的情况下训练模型，从而可以利用大量未标记的数据。SSL在各种下游任务中提供了与监督学习baseline相比的竞争结果，包括ImageNet微调和检测/分割任务的迁移学习。

为了以SSL方式有效地训练模型，研究人员设计了所谓的“借口任务（pretext tasks）”来生成监控信号。最典型的框架之一是实例区分（ID），其核心思想是将来自同一图像的不同增强视图的表示拉在一起，避免表示崩溃。目前已经提出了ID的不同变体，包括对比学习、不对称网络和特征去相关。

最近，另一个SSL框架逐渐吸引了更多的关注，即掩蔽图像建模（MIM）。MIM方法训练模型从掩蔽图像重建原始内容。这种做法有助于了解图像中丰富的局部结构，从而在目标检测等密集预测任务中获得优异的性能。然而，MIM没有像ID那样的良好线性可分性，并且通常在few-shot分类设置下表现不佳。

ID和MIM方法都有各自的优缺点。作者认为，这种困境是由于忽视了语义对齐或空间敏感性的表示要求造成的。具体而言，MIM在每个图像内独立运行，而不考虑图像间的关系。语义相似图像的表示没有很好地对齐，这进一步导致MIM的linear probing性能较差。另一方面&#x

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
清华&商汤&上海AI&CUHK提出Siamese Image Modeling，兼具linear probing和密集预测性能！...

关注公众号，发现CV技术之美本文分享论文『Siamese Image Modeling for Self-Supervised Vision Representation Learning』，由清华（黄高组）&商汤（代季峰组）&上海AI Lab&CUHK提出Siamese Image Modeling，兼具linear probing和密集预测性能...
复制链接

扫一扫