Vision Transformer (ViT) —— 多模态学习笔记（一）

Michael Wow

已于 2024-10-25 17:02:45 修改

阅读量1.6k

点赞数 17

分类专栏：多模态大模型笔记文章标签： transformer 人工智能深度学习机器学习神经网络自然语言处理图像处理

于 2024-10-25 16:45:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46101866/article/details/143229773

版权

本系列文章采用先总体框架后技术细节的方式展开。
原论文：An image is worth 16x16 words: Transformers for image recognition at scale.
Github：google-research/vision_transformer

一、ViT 架构

总体上可以简单理解为：ViT是将Transformer架构引入到计算机视觉中。
Transformer最先在NLP领域提出，它处理序列数据有优势对于标准的Transformer模块，输入是token序列，一般是[num_token, token_dim]。因此ViT的核心思想如下图 Vision Transformer（ViT）的架构图所示，它是通过将图像分割成一系列小块（patches）并视为序列化的token输入到Transformer编码器中，实现对图像特征的提取。

ViT工作流程：

将图像分割成固定大小的图像块（patches）
通过 Linear Projection of Flattened Patches 将每一个 patches 转换成Patch Embedding，然后添加位置编码，得到 Patch + Position Embedding。（每个图像块现在就像一个"单词"，而整个图像被看作由这些"单词"组成的一句话。）
嵌入（Patch + Position Embedding）输入到Transformer编码器处理，输出每个图像块的更新特征表示，它不仅包含了图像块自身的特征，还包含了图像块之间的关联信息。

二、技术细节

让我们以ViT-B/32模型为例，介绍在ViT模型中的数据流。
(注：B是Base的缩写，作者根据设置参数大小训练了Base、Large、Huge等多种模型，32是图像会被分割成多32×32的图像块。如果是16，就是分成16×16)

1. 输入图像

假设输入的图像大小为224×224像素。这个图像会被分割成多个固定大小的图像块。
在ViT-B/32中，图像被分成32×32的图像块（patch）。
对于一个224×224的图像，可以被划分为(224 ÷ 32) × (224 ÷ 32) = 7 × 7个图像块，也就是49个图像块。

2. 图像块（Patches）展开和线性投影

每个图像块大小是32×32，展平后是32×32×3 = 3072维的向量（假设输入图像是RGB格式）。此时向量的形状为49×3072。
通过线性投影，每个3072维的向量被映射到768维的特征向量。最终得到的是49×768的向量。
(注：如果是ViT-B/16，展平后是16×16×3 = 768，也许很多人和我一样，有这样的疑惑，为什么ViT-B/32和ViT-B/16都是映射到7

最低0.47元/天解锁文章

博客等级

码龄5年

5
原创

75
点赞

92
收藏

418
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Autoware安装教程
Jessicwinner: 请问连接被拒绝应该怎么办呢
Autoware安装教程
lsp_dd: 还有一个问题，我在编译包的时候只有360个，看到网上其他的教程有369个，而您编译了373个，这是为什么呢？
Autoware安装教程
lsp_dd: 楼主您好，请问您在2.2创建工作空间一节的最后一张图片是不是放错了呀？这张图应该是2.1创建开发环境里 ./setup-dev-env.sh 这个命令的输出吧，是这样吗？
Autoware安装教程
Michael Wow: No module named 'pkg_resources'这个问题，试一下安装pkg_resources？
Autoware安装教程
乌尔缇玛: 你好，请问在运行./setup-dev-env.sh时出现 TASK [autoware.dev_env.autoware_core : Install gdown to download files from CMakeLists.txt] **************************** An exception occurred during task execution. To see the full traceback, use -vvv. The error was: ModuleNotFoundError: No module named 'pkg_resources' fatal: [localhost]: FAILED! => {"changed": false, "msg": "Failed to import the required Python library (setuptools) on lin's Python /home/megumin/.local/pipx/venvs/ansible/bin/python. Please read the module documentation and install it in the appropriate location. If the required library is installed, but Ansible is using the wrong Python interpreter, please consult the documentation on ansible_python_interpreter"} 这个该怎么解决呢？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。