#今日论文推荐# ViT的复仇:Meta AI提出ViT训练的全新baseline

#今日论文推荐# ViT的复仇:Meta AI提出ViT训练的全新baseline

本文提出了训练视觉 Transformer(ViT)的三种数据增强方法:灰度、过度曝光、高斯模糊,以及一种简单的随机修剪方法 (SRC)。实验结果表明,这些新方法在效果上大大优于 ViT 此前的全监督训练方法。

Transformer 模型 [55] 及其衍生模型在 NLP 任务中取得巨大成功后,在计算机视觉任务中也越来越受欢迎。这一系列的模型越来越多地用于图像分类 [13]、检测与分割 [3]、视频分析等领域。尤其是 Dosovistky 等人 [13] 提出的视觉 Transformer(ViT)成为了卷积结构的合理替代模型。这些现象说明 Transformers 模型已经可以作为一种通用架构,来通过注意力机制学习卷积以及更大区间的操作 [5,8]。相比之下,卷积网络 [20,27,29,41] 本就具备了平移不变性,不用再通过训练来获取。因此,包含卷积的混合体系结构比普通 Transformers 收敛得更快也就不足为奇了 [18]。
因为 Transformer 仅将多个 patch 中相同位置的像素合并,所以 Transformer 必须了解图像的结构,同时优化模型,以便它处理用来解决给定任务目标的输入。这些任务可以是在监督情况下产生标签,或者在自监督方法下的其他代理任务。然而,尽管 Transformer 取得了巨大的成功,但在计算机视觉方面研究如何有效训练视觉 Transformer 的工作却很少,特别是在像 ImageNet1k 这样的中型数据集上。从 Dosovistky 等人的工作 [13] 开始,训练步骤大多是使用 Touvron 等人 [48] 和施泰纳等人 [42] 提出的方法的变体。相比之下,有许多工作通过引入池化、更有效的注意力机制或者重新结合卷积和金字塔结构的混合架构提出了替代架构。这些新设计虽然对某些任务特别有效,但不太通用。所以研究者们会困惑,性能的提高到底是由于特定的架构设计,还是因为它按照 ViT 卷积所提出的方式改进了优化过程。
最近,受时下流行的基于 BerT 预训练启发的自监督方法为计算机视觉中的 BerT 时代带来了希望。从 Transformer 架构本身出发,NLP 和 CV 领域之间存在一些相似之处。然而,并非在所有方面都是相同的:处理的模态具有不同的性质(连续与离散)。CV 提供像 ImageNet [40] 这样的大型带有注释的数据库,并且在 ImageNet 上进行全监督的预训练对于处理不同的下游任务(例如迁移学习 [37] 或语义分割)是有效的。
如果没有对 ImageNet 上全监督方法的进一步研究,很难断定像 BeiT [2] 这样的自监督方法的性能是否该归因于网络的训练过程,例如数据增强、正则化、优化,或能够学习更一般的隐式表示的底层机制。在本文中,研究者们没有强行回答这个难题,而是通过更新常规 ViT 架构的训练程序来探讨这个问题

论文题目:DeiT III: Revenge of the ViT
详细解读:https://www.aminer.cn/research_report/62733ef77cb68b460fb04735?download=falseicon-default.png?t=M3K6https://www.aminer.cn/research_report/62733ef77cb68b460fb04735?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值