SiT : Self-supervised vision Transformer

从NLP Transformer中借鉴而来的视觉 Transformer 在使用大规模监督数据或某种形式的协同监督(例如教师网络)进行预训练时已被证明是有效的。这些经过监督预训练的视觉Transformer在下游任务中通过最小的改动就能取得出色的结果。

随着监督预训练(SP)和自监督预训练(SSP)在下游应用(如分类、定位、分割等)之间的性能差距逐渐缩小,自监督学习(SSL)在计算机视觉领域正逐渐受到更多关注。自监督视觉Transformer(SiT)是第一个确立SSP可以在下游应用中超越SP的工作,从而确立了SSP作为预训练视觉Transformer更合适的选择。

SiT是第一个为视觉Transformer设计的掩码图像建模工作。其核心在于构建Group Masked Model Learning(GMML)的思想,一个简单的掩码自编码器框架,用于获取一个前置模型。视觉Transformer 的架构灵活性允许我们将 SiT 用作自编码器,并与多个自监督任务无缝协作。

所提出的方法在标准数据集上使用通用协议进行了评估。结果表明,GMML框架对于SSL和视觉Transformer是合适的。SiT在性能上始终优于监督预训练以及先前的技术,且优势显著。与其他基于视觉Transformer的预训练方法不同,SiT在小规模和中规模数据集上也表现出非常强大的性能。得益于SiT,视觉Transformer能够超越(或至少与)卷积神经网络相媲美。


在 SiT 中提出了 GMML(Group Masked Model Learning)框架,用于使用带重建损失的掩码自动编码器进行 Vision Transformer 的自监督学习,但这个想法通常适用于其他损失。

在 SiT 构思之时,由于计算资源极其有限,使用小模型和中小规模数据集展示了 GMML 的优点。到 2021 年底,SIMMIM [9] 和 MAE [10] 使用大型 Vision Transformer 在 ImageNet-1K [11] 等大规模数据集上扩展了带重建损失的 GMML。

GMML 现在是多个应用领域领先的 SSL 框架,为图像分类 [7]、分割 [9]、音频分析 [12]、医学图像分析 [13]、[14]、视频表示 [15] 等提供了最先进的结果。简而言之,MIM/GMML 使计算机视觉社区能够在 SSL 中享受到与 NLP 社区在 BERT 上享受到的同样的成功。

当使用中小型数据集进行训练而无需任何外部数据时,SiT 的表现远远优于现有技术和后期技术,而当在大规模数据集上进行预训练时,其表现优于现有技术并与采用 GMML 框架的后期技术相当。

1. 介绍

自监督预训练可以显著提高下游任务的性能 [1],[16]。在语音识别 [17] 和计算机视觉应用 [18]、[19]、[20]、[21] 中也观察到了类似的趋势。自监督预训练,特别是与 Transformer [22] 结合使用,是 NLP [1]、[16] 的首选模型。SSL 的成功是以海量数据集和大容量模型为代价的。视觉 Transformer 的预训练主要使用监督学习的超大规模数据集,例如由数亿个标记样本组成的数据集 [3]。

Vision Transformer 已被证明在没有外部数据的情况下在 ImageNet-1K 上表现良好 [4]。 简而言之,使用大规模监督数据集对神经网络进行预训练是计算机视觉中的一种常态,以获得更好的性能。 

自监督方法大致可分为生成式方法和判别式方法。生成式方法 学习对数据分布进行建模。然而,数据建模通常计算量很大,而且可能不是所有场景中表征学习所必需的。另一方面,通常在对比学习框架中实现的判别式方法或使用前置任务展示了以适度计算要求获得更好的泛化表征的能力。

1.1 对比学习

对比学习的目标是学习图像嵌入,这些嵌入对于同一图像的不同增强视图是不变的,同时对于不同的图像是具有区分度的。然而,这种方法通常只关注整个图像的全局变换不变表示,而忽略了学习图像的上下文表示。而图像中的每个概念、概念内的上下文以及概念周围的上下文对于深入理解图像都是非常重要的。

为了获得更详细和上下文感知的表示,研究者们提出了一些替代的预训练任务。这些任务包括基于重建或恢复缺失信息的方法,如修复图像中的斑块、上色、预测噪声、预测图像旋转等。这些任务旨在让模型通过理解图像的局部和全局结构来学习有用的表示。

与基于CNN的SSL方法不同,作者提出了一种针对 ViT 的预训练框架。由于ViT不依赖于任何关于局部归纳偏置的假设(即邻域内的统计相关性),因此为了建模有用的归纳偏置,ViT 需要大量的数据才能与CNN的性能相媲美。而提出的GMML框架使ViT能够从少量数据中学习有用的局部归纳偏置,从而在性能上与CNN相媲美。


SiT 的核心建立在 GMML 的简单思想之上。 与现有的 SSL 方法不同,GMML 利用 vision Transformer 中的信息冗余和互补性,通过学习将本地内容链接到上下文来恢复/重建本地内容。从本质上讲,这一原则类似于 BERT 中使用的掩码语言建模 (MLM),它从上下文中恢复掩码单词。该原则也受到 word2vec 的启发,根据上下文预测单词。 

在计算机视觉中,我们从去噪自动编码器的原理和上下文编码器 的思想中汲取灵感,后者已被用于使用 CNN 进行无监督学习。GMML 将 MLM、去噪自动编码器和上下文编码器的原理扩展到 vision Transformer ,用于自监督学习。 这是通过三个原则实现的:

i)学习通过类似于自动编码的机制恢复输入刺激,通过使用连接标记组的掩码等随机数据标记扰动来实现。

ii)感知-动作机制,学习从动作对感知的影响中识别动作,

iii)从数据中内容身份的保存中学习内容相似性的概念。 所提出的 SSL 方法有助于提取内在数据模型,并且能够通过微调很好地适应下游任务。GMML 确立了自己作为一个强大的独立 SSL 框架的地位,超越了所有现有的 SSL 方法,并且首次超越了监督预训练。

1.2 研究的主要贡献

提出了Group Masked Model Learning(GMML)这一新型框架,它利用视觉变换器进行自监督的视觉表征学习。GMML通过恢复大量(高达70%)的缺失视觉信息来训练深度神经网络(DNNs)并学习丰富的表征。这是通过使用可见令牌(tokens)中的上下文信息来恢复被屏蔽(masked)令牌组实现的。

为GMML架构配备了一个解码器,并证明它可以通过一个两层感知机(perceptron)来实现,这得益于变换器的内在特性。这种基于变换器的自编码器避免了对整个解码器块的需求。

利用自编码变换器自然支持多任务学习的能力,开发了一个强大的自监督框架,该框架联合优化了重建(GMML)和对比损失。这意味着GMML不仅可以恢复缺失的视觉信息,还可以从数据中学习其他有用的特征或模式,从而提高其泛化能力。

当在大型数据集上进行预训

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值