vision transfomer

最新推荐文章于 2024-10-17 17:26:49 发布

熙攘人潮当看不见

最新推荐文章于 2024-10-17 17:26:49 发布

阅读量395

点赞数 3

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52382661/article/details/139332533

版权

用一个标准的transfomer模型，就是把图片预处理一下，处理成一系列的序列。就把cv转换成nlp问题

VIT结构

图片预处理 Embedded Patches

对于一张图片，将它分成n个ptach，每个patch就是输入的序列一个元素，所以序列长度是n。而序列中每个元素的维度是ptach的像素个数，假设是x。

经过Linear Projection of Flattened Patch（线性展平）处理之后，序列的每个元素变成了一个token，维度仍然是x。序列元素个数是n+1（n个之前的patch和一个额外的cls{}）

最后，还会加上输入图片的位置编码信息，就是输入的patch处在序列的第几位。把位置编码信息加到token序列（不是concat）

之后进入transfomer encoder（L个transomer block）

再通过分类网络分类

一个transofmoer block前向传播的过程

假如：输入图片是224*224*3大小，把图片分成每个patch块大小是16*16*3，也就是每个patch维度是768。
那么patch块的个数是224*224/16*16=196，（224/16=14，14*14=196）
所以输入线性展平的序列是，序列个数是196，维度是768的
经过线性展平E之后，（线性展平层的维度是768*768，输入序列x和线性展平E相乘，xE）。得到196个维度是768的token和一个cls特殊token，总共是197个维度768的token。197*768
再加上位置编码信息，每个信息是1*768的大小，所以加到token中，最终还是197*768
197*768进入encoder会进入多头自注意力机制，如果使用base版本的vit，多头有12个头，所以输入多头自注意力机制的k、q、v分别是197*64（64*12=768），12个头输出出来的结果经过拼接，仍然是197*768大小
经过MLP会把维度放大4倍，变成197*3012
输出会缩小四倍维度，又变回197*768

如果你不通过patch进行预处理，用cnn得到对应的小尺度的特征图进行预处理也可以

熙攘人潮当看不见

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

熙攘人潮当看不见 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

156万+: 周排名

12万+: 总排名

8863: 访问

: 等级

309: 积分

118: 粉丝

177: 获赞

2: 评论

167: 收藏

私信

关注

热门文章

分类专栏

yolo系列 6篇
STM32F10X 2篇

最新评论

yolov5钢材缺陷检测
CSDN-Ada助手: 恭喜作者发布了第10篇博客，“yolov5钢材缺陷检测”！持续创作是提升自身技术水平的不二选择，希望您能继续保持热情，为读者带来更多有价值的内容。接下来，建议您可以尝试探讨一些新的应用场景或者深入分析一些技术细节，以丰富您的博客内容。期待您更多精彩的作品！
PASCAL VOC数据集
CSDN-Ada助手: 恭喜您开始了博客创作，标题选择也非常有深度！PASCAL VOC数据集是一个非常重要的话题，希望您能够深入挖掘其中的内容，结合自己的理解和应用经验，为读者带来更多的启发和帮助。接下来，可以考虑分享一些关于PASCAL VOC数据集的应用案例和实践经验，让读者更加深入地了解这个数据集的价值和意义。期待您的下一篇文章！祝您创作顺利，不断进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
YOLOv1的理论介绍
CSDN-Ada助手: 很高兴看到您写了第二篇关于YOLOv1的博客，希望您能坚持下去，继续分享关于计算机视觉领域的知识。除了YOLOv1的理论介绍，您还可以探讨YOLOv1在实际应用中的优缺点，以及与其他目标检测算法的比较分析。此外，您还可以深入研究YOLOv1的网络结构、损失函数、训练技巧等方面，这些内容将有助于读者更全面地了解YOLOv1算法。希望您能继续努力，分享更多有价值的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。