【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

计算机科研狗@OUC

已于 2022-03-27 22:38:17 修改

阅读量3.7k

点赞数

分类专栏：论文推介文章标签： transformer 深度学习人工智能计算机视觉神经网络

于 2022-03-27 16:27:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaopursuit/article/details/123775882

版权

论文推介专栏收录该内容

76 篇文章 14 订阅

订阅专栏

请添加图片描述

部分内容来自于 GiantPandaCV 的文章

论文：https://openaccess.thecvf.com/content/ICCV2021/papers/Yuan_Tokens-to-Token_ViT_Training_Vision_Transformers_From_Scratch_on_ImageNet_ICCV_2021_paper.pdf

代码：https://github.com/yitu-opensource/T2T-ViT

1、Motivation

作者指出VIT的不足之处：

直接将图片分块展开成一维向量不利于对图片结构信息（如边缘，线条）建模
冗余的Attention模块限制了特征表达，并带来运算负担

因此，作者提出了 Token to Token Transformer （T2T），采用类似CNN窗口的方式，将相邻的 token 聚合，有助于建模局部特征。

2、Method

T2T 的流程如下图所示，将输入的 token 通过 reshape 操作转化为二维，然后利用 unfold 操作，属于同一个局部窗口的 token 拼接成一个更长的 token，再送入下一层。

Unfold 操作其实是卷积中的 img2col 操作，将卷积窗口的向量，重排成一个列向量，示意图如下所示：

网络整体架构如下图所示，先经过2次Tokens to Token操作，最后给token加入用于图像分类的cls token，并给上位置编码（position embedding），送入到 VIT backbone 当中。

请添加图片描述

更多可以查看 Panda 的文章，代码讲解的也非常详细。

计算机科研狗@OUC

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

部分内容来自于 GiantPandaCV 的文章论文：https://openaccess.thecvf.com/content/ICCV2021/papers/Yuan_Tokens-to-Token_ViT_Training_Vision_Transformers_From_Scratch_on_ImageNet_ICCV_2021_paper.pdf代码：https://github.com/yitu-opensource/T2T-ViT1、Motivation作者指出VIT的不足之处：..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。