#今日论文推荐# ViT的复仇：Meta AI提出ViT训练的全新baseline

最新推荐文章于 2024-10-17 16:33:41 发布

wwwsxn

最新推荐文章于 2024-10-17 16:33:41 发布

阅读量195

点赞数

分类专栏：深度学习文章标签：数据结构

原文链接：https://www.aminer.cn/research_report/62733ef77cb68b460fb04735?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# ViT的复仇：Meta AI提出ViT训练的全新baseline

本文提出了训练视觉 Transformer（ViT）的三种数据增强方法：灰度、过度曝光、高斯模糊，以及一种简单的随机修剪方法 (SRC)。实验结果表明，这些新方法在效果上大大优于 ViT 此前的全监督训练方法。

Transformer 模型 [55] 及其衍生模型在 NLP 任务中取得巨大成功后，在计算机视觉任务中也越来越受欢迎。这一系列的模型越来越多地用于图像分类 [13]、检测与分割 [3]、视频分析等领域。尤其是 Dosovistky 等人 [13] 提出的视觉 Transformer（ViT）成为了卷积结构的合理替代模型。这些现象说明 Transformers 模型已经可以作为一种通用架构，来通过注意力机制学习卷积以及更大区间的操作 [5,8]。相比之下，卷积网络 [20,27,29,41] 本就具备了平移不变性，不用再通过训练来获取。因此，包含卷积的混合体系结构比普通 Transformers 收敛得更快也就不足为奇了 [18]。
因为 Transformer 仅将多个 patch 中相同位置的像素合并，所以 Transformer 必须了解图像的结构，同时优化模型，以便它处理用来解决给定任务目标的输入。这些任务可以是在监督情况下产生标签，或者在自监督方法下的其他代理任务。然而，尽管 Transformer 取得了巨大的成功，但在计算机视觉方面研究如何有效训练视觉 Transformer 的工作却很少，特别是在像 ImageNet1k 这样的中型数据集上。从 Dosovistky 等人的工作 [13] 开始，训练步骤大多是使用 Touvron 等人 [48] 和施泰纳等人 [42] 提出的方法的变体。相比之下，有许多工作通过引入池化、更有效的注意力机制或者重新结合卷积和金字塔结构的混合架构提出了替代架构。这些新设计虽然对某些任务特别有效，但不太通用。所以研究者们会困惑，性能的提高到底是由于特定的架构设计，还是因为它按照 ViT 卷积所提出的方式改进了优化过程。
最近，受时下流行的基于 BerT 预训练启发的自监督方法为计算机视觉中的 BerT 时代带来了希望。从 Transformer 架构本身出发，NLP 和 CV 领域之间存在一些相似之处。然而，并非在所有方面都是相同的：处理的模态具有不同的性质（连续与离散）。CV 提供像 ImageNet [40] 这样的大型带有注释的数据库，并且在 ImageNet 上进行全监督的预训练对于处理不同的下游任务（例如迁移学习 [37] 或语义分割）是有效的。
如果没有对 ImageNet 上全监督方法的进一步研究，很难断定像 BeiT [2] 这样的自监督方法的性能是否该归因于网络的训练过程，例如数据增强、正则化、优化，或能够学习更一般的隐式表示的底层机制。在本文中，研究者们没有强行回答这个难题，而是通过更新常规 ViT 架构的训练程序来探讨这个问题。

论文题目：DeiT III: Revenge of the ViT
详细解读：https://www.aminer.cn/research_report/62733ef77cb68b460fb04735?download=falsehttps://www.aminer.cn/research_report/62733ef77cb68b460fb04735?download=false
AMiner链接：https://www.aminer.cn/?f=cs