Scaling Vision Transformers

最新推荐文章于 2023-12-31 01:32:24 发布

Amusi（CVer）

最新推荐文章于 2023-12-31 01:32:24 发布

阅读量1.7k

点赞数

分类专栏： Transformer backbone 计算机视觉论文速递文章标签：神经网络机器学习深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amusi1994/article/details/117827006

版权

本文改进了ViT的架构和训练，减少了内存消耗并提高了模型的准确性！最终成功训练了一个具有20亿参数的ViT模型：ViT-G，在ImageNet上达到了90.45%的 top-1准确率。

注1：文末附【视觉Transformer】交流群

想看更多CVPR 2021论文和开源项目可以点击：

CVPR2021-Papers-with-Code

ViT-G

Scaling Vision Transformers
在这里插入图片描述

作者单位：谷歌大脑（苏黎世），有原ViT一作和二作
论文：https://arxiv.org/abs/2106.04560

钞能力大法好！
在这里插入图片描述

视觉Transformer (ViT) 等基于注意力的神经网络最近在许多计算机视觉基准测试中取得了最先进的结果。Scale是获得出色结果的主要因素，因此，了解模型的scaling属性是有效设计后代的关键。虽然已经

最低0.47元/天解锁文章

Amusi（CVer）

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Scaling Vision Transformers

本文改进了ViT的架构和训练，减少了内存消耗并提高了模型的准确性！最终成功训练了一个具有20亿参数的ViT模型：ViT-G，在ImageNet上达到了90.45%的 top-1准确率。注1：文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击：CVPR2021-Papers-with-CodeViT-GScaling Vision Transformers作者单位：谷歌大脑（苏黎世），有原ViT一作和二作论文：https://arxiv.org/a
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。