Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet(阅读笔记)

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

Li Yuan1*, Yunpeng Chen2 , Tao Wang1∗ , Weihao Yu1 , Yujun Shi1 ,

Francis EH Tay1 , Jiashi Feng1 , Shuicheng Yan2

1National University of Singapore 2 YITU Technology

[email protected], [email protected], [email protected]

代码:https://github.com/yitu-opensource/T2T-ViT

论文:https://arxiv.org/abs/2101.11986

Abstract

在ImageNet上从头训练一个vision transformer(ViT)模型,ViT模型可以不依赖CNN,直接应用于图像块序列进行图像分类,但是在中等大小数据集(例如imageNet)上的效果不如CNN,主要原因:1.输入图像简单token化无法建模重要的局部特征。2.ViT的冗余注意力主干网设计在固定负载和有限样本约束下限制了特征丰富性。本文提出渐进式token化(Tokens to token)使每个Token更好地建模局部信息,借助CNN架构思想使用deep-narrow结构减少信息冗余提升了实验精度。

Introduction

ViT把图像切分成14*14或16*16固定大小的图像块patch,然后将其线性序列做transformer模型输入,运用NLP中处理token的方式处理图像块,训练分类模型。

尽管这个ViT 的transformer模型能适用于解决图像处理任务,但是实验证明需要大数据样本的训练效果才与CNN媲美。(例如JFT-300M数据集)。接着用本文提出的ViT-ViT-24实验与ViT-L/16和ResNet50作比较,下面是数据特征提取过程的可视化

可以看到ResNet从conv1越往后能提取到目标的局部特征;而ViT得到的

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值