本文提出一种新的Tokens到Token 视觉Transformer(T2T-ViT)!性能更快更强,将原始ViT的参数和MAC减少200%,性能优于ViT、ResNet等网络,代码刚刚开源!
昨天才推了一个CNN+Transformer的新backbone:CNN+Transformer!谷歌提出BoTNet:新主干网络!在ImageNet上达84.7%,今天又来了一个新工作,CV圈太内卷了!
不过这篇论文中并没有在目标检测、实例分割等下游任务上的充足实验数据,如果加上相关分析就更好了,毕竟现在"backbone"可不好被review
注1:文末附【Transformer】流群
注2:整理不易,欢迎点赞,支持分享!
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
- 作者单位:新加坡国立大学, 依图科技
- 代码:https://github.com/yitu-opensourc