【DASOU视频记录】VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读，看不懂来打我

最新推荐文章于 2024-04-01 14:05:37 发布

书文的学习记录本

最新推荐文章于 2024-04-01 14:05:37 发布

阅读量575

点赞数 3

分类专栏：视频总结文章标签： transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43935969/article/details/131553405

版权

视频总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章介绍了VisionTransformer（ViT）如何将Transformer架构应用于计算机视觉领域，通过将图片分割为patch作为token，解决输入尺寸过大导致的复杂度问题。ViT不强制使用CLS，其编码器结构与原始Transformer有所不同，位置编码对于性能提升有显著影响。

摘要由CSDN通过智能技术生成

文章目录

来源

ViT和Transformer的关系

Vision Transformer（简称ViT）是Transformer在CV领域的应用
ViT只使用了Transformer的编码器部分

朴素思路

一个朴素的输入思路：把图片每个像素点作为一个token输入

tokenization指的是分词，分出来的每一个词语叫做token。

在NLP叫每一个单词为token
在CV中就是把图像切割成不重叠的patch序列（其实就是token）

CLS：标注句子语义的标注（Classification）
DASOU的猜测︰

如果采用一个平均，会涉及到所有tonkens的输出;
而MLM任务又会涉及到其中的部分mask的tokens的输出;
（CLS出处）CSL符号一定程度在让两个任务保持一种相对的独立;

在这里插入图片描述

在这里插入图片描述

问题

但是这样输入太大了，导致复杂度过高

在这里插入图片描述

ViT思路

patch

将图片切割成patch，一个patch作为一个token
在这里插入图片描述

整体流程

在这里插入图片描述

CLS

（DASOU）VIT不涉及到MLM这种形式的任务，只会有一个多分类任务，所以CLS符号不是必须的
蓝色：加CLS
绿色：不加CLS
都能达到同样的效果，就是中间的学习率不一样
在这里插入图片描述

位置编码

有多种方式，如下图的：

一维
二维
相对
实验结果，加入位置编码提升三个点，其他很难说了，，，

编码器

和原来Transformer的略有不同

Norm提前了，变成了先Norm再Attention
和CV相比，不需要padding操作了，因为输入网络是靠线性投影来固定大小的

例子

在这里插入图片描述

代码

等DASOU回代码再更，꒰⑅•ᴗ•⑅꒱

在这里插入图片描述

DASOU老哥太强了，每次讲的深入浅出，基本上了解ViT咋回事了。✧(≖ ◡ ≖✿)

书文的学习记录本

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

书文的学习记录本 CSDN认证博客专家 CSDN认证企业博客

码龄6年

国防科技大学

110: 原创

9万+: 周排名

16万+: 总排名

10万+: 访问

: 等级

1571: 积分

768: 粉丝

207: 获赞

56: 评论

561: 收藏

私信

关注

热门文章

分类专栏

简单记录 24篇
安装软件 2篇
CTF 28篇
datawhale 13篇
视频总结 4篇
论文 5篇
降水 3篇
coursera 1篇
深度学习 4篇
导 1篇
前后端学习 8篇
编程语言学习 5篇
生活 1篇
算法 1篇
博客 1篇
大数据 4篇

最新评论

度量学习损失
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
hitcon_2014_stkof详解
Hertant: 2024打卡
0ctf_2017_babyheap详解
m0_54741246: 师傅，为什么字节错位之后前面三位0x00 0x00 0x7f到后面了
【学习打卡】GradCAM可解释性分析
AI布道: GAP全局平均池化，只是做池化操作，不需要像卷积层一样训练参数，CAM方法为什么需要重新训练原有模型。请指教。谢谢
PlotNeuralNet resnet18绘图
凉光: 你好，请问您这是Resnet18的绘图吗，另外请问我想更换输入在哪里更换呢？

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

书文的学习记录本 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。