Vision Transformer(vit)原理分析+实践测试+代码实践(Pytorch)

一只小小的土拨鼠

已于 2024-10-30 21:37:34 修改

阅读量1.1k

点赞数 11

分类专栏： transform 文章标签： transformer pytorch 深度学习

于 2024-10-29 21:14:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40379132/article/details/143349740

版权

transform 专栏收录该内容

11 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

1·VIT简介

Vision Transformer（ViT）是一种基于Transformer架构的深度学习模型，用于图像识别和计算机视觉任务。与传统的卷积神经网络（CNN）不同，ViT直接将图像视为一个序列化的输入，并利用自注意力机制来处理图像中的像素关系。

ViT通过将图像分成一系列的图块（patches），并将每个图块转换为向量表示作为输入序列。然后，这些向量将通过多层的Transformer编码器进行处理，其中包含了自注意力机制和前馈神经网络层。这样可以捕捉到图像中不同位置的上下文依赖关系。最后，通过对Transformer编码器输出进行分类或回归，可以完成特定的视觉任务。

ViT的核心思想是利用Transformer的注意力机制来对图像块之间的关系进行建模。注意力机制允许模型根据输入序列中的不同元素之间的关联性来分配不同的权重。通过多层的自注意力机制，ViT能够对图像块之间的关系进行编码和捕捉，从而实现对图像的全局理解。

2·Vit model结构图

Vit的模型结构如下图所示。vit是将图像块应用于transformer。CNN是以滑窗的思想用卷积核在图像上进行卷积得到特征图。为了可以使图像仿照NLP的输入序列，我们可以先将图像分成块(patch)，再将这些图像块进行平铺后输入到网络中(这样就变

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只小小的土拨鼠 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。