[论文评析] ICLR,2021,An image is worth 16x16 words-transformers for image recognition at scale

最新推荐文章于 2023-07-19 15:31:20 发布

MasterQKK 被注册

最新推荐文章于 2023-07-19 15:31:20 发布

阅读量315

点赞数

分类专栏： Deep learning 文章标签：人工智能

本文链接：https://blog.csdn.net/QKK612501/article/details/119650211

版权

Deep learning 专栏收录该内容

43 篇文章 11 订阅

订阅专栏

An image is worth 16x16 words-transformers for image recognition at scale

贡献
Vision Transformer
点评
总结
Reference

论文题目：An image is worth 16x16 words-transformers for image recognition at scale
单位：Google Research, Brain Team

贡献

1.是将Transformer应用到Image classification任务的第一篇研究工作；
2.当前CV这块，CNN架构是主流，这篇文章所提出的Vision Transformer (ViT)在Image classification任务上取得了很好效果，证明了CNN并不是CV任务所必须的；

Vision Transformer

在这里插入图片描述
如图展示的是将Transformer应用于image任务上的一个示意图，

由于Transformer最早是在NLP领域中被提出的，其输入为向量序列，即Sequence of tokens/vectors，为了把Transformer用到CV中，肯定要先对Image做一些处理，使其与Transformer的输入格式相匹配。怎么做呢？

首先通过网格化把image转化为固定大小的patches (即得到sequence of patches), 然后把每个patch拉成一个向量，再经过Linear projection (实际上就是通过矩阵乘法来改变token的维度)，最终得到Sequence of Vectors/Tokens。

上述过程的形式化定义如下：

假设输入 $\in R^{H {\rm x} W {\rm x} C}$ ,
$\hat{X}=Reshape(X, P)$ , $\hat{X} \in R^{\frac{HW}{P^{2}} {\rm x} P {\rm x} P {\rm x} C }$ , $P$ 为每个Patch的大小, 每个Patch 的size为 $R^{P {\rm x} P {\rm x} C}$ .
$\hat{X}_{fl}=Flatten(\hat{X})$ , $\hat{X}_{fl} \in R^{\frac{HW}{P^{2}} {\rm x} (P^{2}C) }$
$X_{embed}=LP(\hat{X}_{fl}, D)$ , $X_{embed} \in R^{\frac{HW}{P^{2}} {\rm x} D}$

最终得到的 $X_{embed}$ 每一行即为一个token,对应一个Patch, Patches的总数为 $\frac{HW}{P^{2}}$ .

Transformer在CV中应用 (即Vision Transformer) 具体过程:
假设一个Figure经过网格化以及投影最终的尺寸为： [L, $D_{emd}$ ], 其中L为Patches的数量，实际上就等于 $\frac{HW}{P^{2}}$ , D_{emd}为每个Patch嵌入的维度，即上面的 $D$ .

由于MHA输入输出尺寸相同，因此，每个Self-Attention输出的尺寸为：[ $L$ , $D_{h}$ ], $D_{emd} = D_{h} \cdot N_{h}$ , $N_{h}$ 为heads的数量，对于每个head, 通过Linear projection把X映射到 $D_{h}$ 维的空间，得到 $Q^{h}, K^{h}, V^{h}$ , 然后基于 $Q$ 和 $K$ 来计算patches投影子空间的相似度，然后对依据该相似度对 $V$ 进行加权得到第 $h$ 个head的输出，尺寸为：[ $L$ , $D_{h}$ ], 把 $N_{h}$ 个这样的输出聚合，尺寸为：[ $L$ , $D_{emd}$ ], 然后在经过Linear projection得到最终输出： [ $L$ ， $D_{emd}$ ],

所谓的网格化Patches仅仅是为了得到sequence of tokens以匹配MHA的输入个数。

上述Patch Embedding存在的一个问题是：在将image转化为Patches的过程中，丢失了Patches之间的位置信息，为了保持输入中缺失的信息，作者提出所谓的Positing Embedding，即对Patches间的相对位置进行编码，然后将其加到 $X_{embed}$ 中，最终就得到带有位置信息的Sequence of tokens.

接下来将其Feed进Transformer, Transformer的介绍请参见，最终Transformer的输出尺寸不变，依然为 $R^{\frac{HW}{P^{2}} {\rm x} D}$ ,

后面可以连接具体的任务网络执行具体的任务。

点评

这篇论文并没有提出新的模型，新的优化算法，只是将NLP中的Transformer应用到了CV中一个新的的任务场景：image classification, 实际上是拓展了Transformer的应用范围。

总结

Reference

1.ICLR，2021-An image is worth 16x16 words-transformers for image recognition at scale

MasterQKK 被注册

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
[论文评析] ICLR,2021,An image is worth 16x16 words-transformers for image recognition at scale

An image is worth 16x16 words-transformers for image recognition at scale贡献Vision Transformer点评总结Reference论文题目：An image is worth 16x16 words-transformers for image recognition at scale单位：Google Research, Brain Team贡献1.是将Transformer应用到Image classificat
复制链接

扫一扫