【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

请添加图片描述

部分内容来自于 GiantPandaCV 的文章

论文:https://openaccess.thecvf.com/content/ICCV2021/papers/Yuan_Tokens-to-Token_ViT_Training_Vision_Transformers_From_Scratch_on_ImageNet_ICCV_2021_paper.pdf

代码:https://github.com/yitu-opensource/T2T-ViT

1、Motivation

作者指出VIT的不足之处:

  • 直接将图片分块展开成一维向量不利于对图片结构信息(如边缘,线条)建模
  • 冗余的Attention模块限制了特征表达,并带来运算负担

因此,作者提出了 Token to Token Transformer (T2T),采用类似CNN窗口的方式,将相邻的 token 聚合,有助于建模局部特征。

2、Method

T2T 的流程如下图所示,将输入的 token 通过 reshape 操作转化为二维,然后利用 unfold 操作,属于同一个局部窗口的 token 拼接成一个更长的 token,再送入下一层。

Unfold 操作其实是卷积中的 img2col 操作,将卷积窗口的向量,重排成一个列向量,示意图如下所示:

网络整体架构如下图所示,先经过2次Tokens to Token操作,最后给token加入用于图像分类的cls token,并给上位置编码(position embedding),送入到 VIT backbone 当中。

请添加图片描述

更多可以查看 Panda 的文章,代码讲解的也非常详细。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值