本文改进了ViT的架构和训练,减少了内存消耗并提高了模型的准确性!最终成功训练了一个具有20亿参数的ViT模型:ViT-G,在ImageNet上达到了90.45%的 top-1准确率。
注1:文末附【视觉Transformer】交流群
想看更多CVPR 2021论文和开源项目可以点击:
ViT-G
Scaling Vision Transformers
- 作者单位:谷歌大脑(苏黎世),有原ViT一作和二作
- 论文:https://arxiv.org/abs/2106.04560
钞能力大法好!
视觉Transformer (ViT) 等基于注意力的神经网络最近在许多计算机视觉基准测试中取得了最先进的结果。Scale是获得出色结果的主要因素,因此,了解模型的scaling属性是有效设计后代的关键。虽然已经