Vision Transformer【ViT】学习笔记

刚好998

已于 2022-05-07 17:02:15 修改

阅读量390

点赞数

分类专栏： CV 文章标签： transformer 学习深度学习

于 2022-05-07 16:53:55 首次发布

本文链接：https://blog.csdn.net/qq_41696417/article/details/124633248

版权

CV 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

模型架构图

在这里插入图片描述

整体介绍

首先将图片切分成为9宫格，每一个小块为一个patch，再展平为1维向量，再经过一个线性层（MLP）投影成为我们规定的维
度（对应于Transformer里面的将token向量化的过程）。
由于图片切分之后分别输入到网络中，此时位置信息会被打乱，此时需要positional embedding对位置信息进行编码，再进行自注意力的计算。

在Encoder的最后，每一个token都对应一个输出，应该用哪一个作为输出分类呢？
借鉴bert，Extra learnable {class} embedding --> [class]，即图中的第0位置的token，在encoder里面做自注意力计算的的时候，所有的token进行两两计算时，这个分类的token同样也会和所有的token进行交互，可以学习到图片所有的特征，此时用作图片分类是合理的。
[class] 输入一个通用的 MLP Head，得到 Class，cross-entropy 损失函数训练模型。

一句话概括ViT的工作

ViT用标准的transformer结构，仅仅是将图片当作句子，patch当作单词进行处理，像论文题目An Image is worth 16 * 16 words，即一张图片都是很多个16*16的patch组成的，最后加一个class token + MLP (tanh acitvation)完成图片分类任务。

ViT 前向过程

输入图片 X： 224 * 224 * 3 (RGB, 3 channels)
patches 数 N： 224 ^ 2 / 16 ^ 2 = 14 ^ 2 = 196
每一个 patch 的维度：16 * 16 * 3 (RGB, 3 channels) = 768
Linear Projection 全连接层 E: 768( 不变，patch 计算而来 ) * D(embedding_dim) 768 或更大【这是可以设置为我们想要的语义空间的维度】
图片 X * E = patches (196 patches 个数 * 768 每个 patch 的维度) * E ( 768 * D ) = 196 * D (768)

Q: 进入 transformer encoder 的序列长度？
196 * 768(图片对应的 tokens) 拼接 concatenate [class] token (1 * 768) = 197 * 768

Q: position embedding 怎么加 patch embedding？sum()
位置编码每行向量的维度是 1 * 768
相加 sum：
patch embedding（197 * 768） + position embedding （(1 CLS + 196 patches) * 768）= （197 * 768）

Transfomer encoder 输入输出维度保持一致，即D(768)。

ViT总结

【贡献】
首次将NLP里面的Transformer搬到CV，其主要模型架构和bert相同，都是只采用了Transformer的Encoder。它打破了NLP和CV的壁垒，真正在多个领域实现了统一模型，是一项奠基性的工作。原论文仅仅是解决了图像分类任务，目标检测，图像分割等任务依然可以通过Transformer完成，这给后人提供了研究方向。
【局限】
由于tokens之间是两两进行全局注意力的计算，所以复杂度是二次方，在图片较大的时候是不可接受的。ViT只有在大数据集上才能胜过ResNet，在小数据集上依然是ResNet领先，这归功于CNN天生的特征提取局部性和平移不变形等归纳配置（先验知识）。后续的Swin Transformer很好的解决了上述两点问题，因而成为目前【2022】最厉害的CV框架。

刚好998

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Vision Transformer【ViT】学习笔记

模型架构图整体介绍首先将图片切分成为9宫格，每一个小块为一个patch，再展平为1维向量，再经过一个线性层（MLP）投影成为我们规定的维度（对应于Transformer里面的将token向量化的过程）。由于图片切分之后分别输入到网络中，此时位置信息会被打乱，此时需要positional embedding对位置信息进行编码，再进行自注意力的计算。在Encoder的最后，每一个token都对应一个输出，应该用哪一个作为输出分类呢？借鉴bert，Extra learnable {class} em
复制链接

扫一扫

专栏目录