#今日论文推荐# 超越所有MIM模型的BEiT v2来了,微软使用矢量量化视觉Tokenizers的掩码图像建模

#今日论文推荐# 超越所有MIM模型的BEiT v2来了,微软使用矢量量化视觉Tokenizers的掩码图像建模

蒙面图像建模 (MIM) 通过恢复损坏的图像patch,在自监督表示学习中展示了令人印象深刻的结果。然而,大多数方法仍然对低级图像像素进行操作,这阻碍了对表示模型的高级语义的利用。在这项研究中,作者提出使用语义丰富的视觉标记器作为掩码预测的重建目标,为将 MIM 从像素级提升到语义级提供了一种系统的方法。具体来说,作者引入向量量化知识蒸馏来训练tokenizer,它将连续的语义空间离散化为紧凑的代码。然后,通过预测mask图像块的原始视觉token来预训练视觉Transformer。此外,作者鼓励模型将patch信息显式聚合到全局图像表示中,这有助于linear probing。图像分类和语义分割的实验表明,本文的方法优于所有比较的 MIM 方法。图像分类和语义分割的实验表明,本文的方法优于所有比较的 MIM 方法。在 ImageNet-1K(224 大小)上,基本大小的 BEIT V2 在微调时达到 85.5% 的 top-1 精度,在线性探测(linear probing)时达到 80.1% 的 top-1 精度。大尺寸 BEIT V2 在 ImageNet-1K(224 大小)微调上获得 87.3% 的 top-1 准确率,在 ADE20K 上获得 56.7% 的 mIoU 用于语义分割。

蒙面图像建模 (Masked image modeling) 在学习视觉表示方面显示出令人印象深刻的结果,这极大地缓解了视觉 Transformer 的注释饥饿问题。给定一张图像,这些方法通常首先通过屏蔽一些patch来破坏它。以开创性的工作 BEiT  为例,每张图像在预训练期间都有两个视图,即图像块和视觉token。原始图像首先被标记为离散标记。随机采样的图像块在被馈送到视觉Transformer之前被屏蔽。预训练的目标是根据损坏的图像块恢复原始视觉token。在预训练视觉编码器后,可以通过附加轻量级任务层直接在各种下游任务上微调模型。

在 mask-then-predict 框架下,与以往工作的主要区别在于重建目标,例如视觉token、原始像素和手工制作的 HOG 特征。然而,恢复低级监督往往会浪费建模能力来预训练高频细节和短程依赖关系。例如,当mask戴在男人头上的“帽子”时,我们更喜欢模型在给定整个上下文的情况下学习被掩盖的“帽子”的高级概念,而不是在像素级细节上苦苦挣扎。相比之下,语言建模中的掩码词通常被认为具有比像素更多的语义。这促使通过在预训练期间利用语义感知监督来挖掘 MIM 的潜力。

在这项工作中,作者引入了一种自监督的视觉表示模型 BEIT V2,旨在通过学习语义感知的视觉标记器(tokenizer)来改进 BEIT 预训练。具体来说,作者提出了向量量化知识蒸馏(VQ-KD)算法来离散化语义空间。VQ-KD 编码器首先根据可学习的码本将输入图像转换为离散token。然后解码器学习重建由教师模型编码的语义特征,以离散token为条件。在训练 VQ-KD 后,其编码器用作 BEIT 预训练的视觉标记器,其中离散代码用作监督信号。

此外,作者提出通过明确鼓励 CLS  token聚合所有patch来预训练全局图像表示。该机制解决了mask图像建模仅预训练patch级表示的问题。结果,在聚合全局表示的帮助下,线性探测的性能得到了提高。

论文题目:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
详细解读:https://www.aminer.cn/research_report/630f67e07cb68b460f109b40icon-default.png?t=M7J4https://www.aminer.cn/research_report/630f67e07cb68b460f109b40
AMiner链接:https://www.aminer.cn/?f=cs

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值