Visual Transformer (ViT)模型详解

最新推荐文章于 2024-08-29 15:53:51 发布

mmfloatingdream

最新推荐文章于 2024-08-29 15:53:51 发布

阅读量939

点赞数 15

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59592518/article/details/141068076

版权

Transformer模型应用到图像面临挑战：

与单词、句子、段落等文本数据不同，图像中包含更多的信息，并且是以像素值的形式呈现。
如果按照处理文本的方式来处理图像，即逐像素处理的话，即使是目前的硬件条件也很难。Transformer缺少CNNs的归纳偏差，比如平移不变性和局部受限感受野。
CNNs是通过相似的卷积操作来提取特征，随着模型层数的加深，感受野也会逐步增加。但是由于Transformer的本质，其在计算量上会比CNNs更大。
Transformer无法直接用于处理基于网格的数据，比如图像数据。

为解决上述问题，Google的研究团队提出了ViT模型，将图像数据转换成序列数据就可以。

ViT模型架构

ViT的工作流程：

将一张图片分成patches
将patches铺平
将铺平后的patches的线性映射到更低维的空间
添加位置embedding编码信息
将图像序列数据送入标准Transformer encoder中去
在较大的数据集上预训练
在下游数据集上微调用于图像分类

模型由三个模块组成：

Linear Projection of Flattened Patches(Embedding层)
Transformer E

最低0.47元/天解锁文章

mmfloatingdream

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Visual Transformer (ViT)模型详解

实验表明，不同的位置编码embedding对最终的结果影响不大，在Transformer原论文中使用的是固定位置编码，在ViT中使用的可学习的位置embedding 向量，将它们加到对应的输出patch embeddings上。标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵[num_token, token_dim]，如下图，token0-9对应的都是向量，以ViT-B/16为例，每个token向量长度为768。将上图展示的过程近一步分解为6步，一步一步地解析它的原理。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。