NLP高频面试题（三十三）——Vision Transformer（ViT）模型架构介绍

Chaos_Wang_

于 2025-04-03 22:09:44 发布

阅读量492

点赞数 3

CC 4.0 BY-SA版权

分类专栏： NLP/大模型八股文章标签：自然语言处理 transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41667743/article/details/146989703

NLP/大模型八股专栏收录该内容

83 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

Transformer架构在自然语言处理领域取得了显著成功，激发了研究人员将其应用于计算机视觉任务的兴趣。Vision Transformer（ViT）应运而生，成为图像分类等视觉任务中的新兴架构。本文将介绍ViT的基本架构、工作原理，并与传统的卷积神经网络进行比较。

ViT的基本架构

ViT的核心思想是将图像视为一系列的补丁（patches），类似于自然语言处理中的词嵌入（word embeddings）。具体步骤如下：

图像分割为补丁：将输入图像划分为固定大小的补丁，例如16x16像素。这样，一个尺寸为224x224的图像将被分割为14x14=196个补丁。
补丁展平与嵌入：将每个补丁展平成一维向量，并通过线性变换映射到固定维度的嵌入空间。
位置编码：由于Transformer缺乏处理位置信息的内在机制，需要为每个补丁添加位置编码，以保留其在原始图像中的位置信息。
Transformer编码器：将嵌入后的补丁序列输入标准的Transformer编码器，进行全局信息的建模和特征提取。
分类头：在补丁序列前添加一个可学习的分类标记（[CLS]），其对应的输出经过全连接层用于最终的分类预测。

ViT的工作原理

ViT利用自注意力机制、计算图像中各补丁

了解本专栏

超级会员免费看

博客等级

码龄8年

人工智能领域优质创作者

博客专家认证

241
原创

1651
点赞

3694
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: NLP高频面试题（三十二）——介绍一下CLIP和CLIP2

下一篇：: NLP高频面试题（三十四）——深度解析Layer Normalization与Batch Normalization：区别、联系及Transformer为何偏爱LN

最新评论

大模型 Agent 中的通用 MCP 机制详解
非常大模型: 太可了吧，这个全AI写的
NLP/大模型八股专栏结构解析
Chaos_Wang_: 多头注意力机制其实是为了提升模型的表达能力和学习效率的。简单来说，单个注意力头往往只能捕捉到一种关系，比如局部依赖。但多头注意力会把输入映射到不同的子空间，每个头各自学习不同的特征或模式，比如有的关注短距离，有的关注长距离，有的关注词性或句法结构。最后把所有头的输出拼接起来，相当于融合了多种不同视角的信息，让模型的表达能力更丰富。此外，多头注意力还能让训练过程更稳定，因为每个头是独立学习的，即使某个头学得不好，其他头也能补回来，整体不容易过拟合。
【NLP相关】NLP领域经典论文汇总（附代码实现）
m0_73877443: 挂梯子看看
Python保存环境（导出requirements.txt文件）
爱睡觉的咋: 多打了一个n 应该是pip freeze > requirements.txt
CLIP：一种基于视觉和语言相互关联的图像分类模型
『追梦』选手: 强烈推荐，这个视频讲解的 CLIP 讲的挺清晰的：https://www.bilibili.com/video/BV1xM4m1m7vA/

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Chaos_Wang_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。