Swin Transformer与Vision Transformer的不同设计

Libertaz

已于 2022-05-11 16:50:31 修改

阅读量654

点赞数

分类专栏： Vision Transformer 文章标签： transformer 深度学习人工智能 pytorch 计算机视觉

于 2022-05-11 16:49:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sircollector/article/details/124713291

版权

Vision Transformer 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Swin Transformer与Vision Transformer的不同设计

图片分割
cls_token
位置编码
attention层

图片分割

Swin使用一个卷积层进行分割，卷积层的滑动补偿等于核的尺寸，因此图片每个像素不会重复框选，卷积核数等于embedding编码长度，同时完成分割与掩码
Vision先老老实实地分割，并把每个patch的像素如（3, 16, 16）拉平，再接入mlp中转化为预定的embedding长度

cls_token

Swin不用cls_token，最后使用全局池化产生送入mlp中的向量
Vision可以使用cls_token，最后直接将cls_token提取出来送入mlp中，也可以选择不用

位置编码

Swin采用二维的相对位置编码，而且是在QK求完内积得到注意力分数之后作为偏置加在注意力分数上的，此后才做softmax处理。
Vision采用一维的绝对位置编码，在对图片切割为patches并embedding，再并上cls_token后进行一维绝对位置编码
Swin在在对图片切割为patches并embedding后，不适用cls_token，可选择添加绝对位置编码

attention层

Swin规定了头数与且QKV总的向量长度应与embdiing长度相等，因此每个头的QKV向量长度为embdiing长除以头数，经过多头自注意力后拼接各个头的V，得到的V向量的长度即为embedding长度，以此来保证embedding长度经过自注意力处理后不发生改变
Vision规定了头数和每个头的QKV向量长度，这样比较灵活，经过多头自注意力后拼接各个头的V，经过mlp将得到的V向量的长度转化为embedding长度，以此来保证embedding长度经过自注意力处理后不发生改变

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Swin Transformer与Vision Transformer的不同设计

Swin Transformer与Vision Transformer的不同设计图片分割cls_token位置编码attention层图片分割Swin使用一个卷积层进行分割，卷积层的滑动补偿等于核的尺寸，因此图片每个像素不会重复框选，卷积核数等于embedding编码长度，同时完成分割与掩码Vision先老老实实地分割，并把每个patch的像素如（3, 16, 16）拉平，再接入mlp中转化为预定的embedding长度cls_tokenSwin不用cls_token，最后使用全局池化产生送
复制链接

扫一扫

专栏目录

Libertaz CSDN认证博客专家 CSDN认证企业博客

码龄4年

121: 原创

21万+: 周排名

162万+: 总排名

2万+: 访问

: 等级

1215: 积分

3: 粉丝

15: 获赞

6: 评论

62: 收藏

私信

关注

热门文章

分类专栏

最新评论

Adversarial Weight Perturbation Helps Robust Generalization(AWP adversarial train )
XY不轴: 请问代码里面的generate_validation.py在哪里？
YOLOv2：损失函数的理解
qq_43635966: 第一项计算损失，是计算预测框和groundTruth的IOU吗，有些博主说是计算anchor和groundTruth的IOU？
YOLOv2：损失函数的理解
Libertaz: 我也不是理解的很清楚，如果没有这一项，整个过程中网络的预测是对锚框的调整量，看到的标签也是对锚框的调整量，这一项好像是为了告诉网络锚框到底长啥样，而且只在训练的前几个epoch中进行计算，只是一个小trick把
YOLOv2：损失函数的理解
百事狗乐: 第二个损失函数计算预测框和锚框的损失是为什么？下面不是说了么？预测框的初始位置是相对应的锚框，还需要计算损失？
Adversarial Weight Perturbation Helps Robust Generalization(AWP adversarial train )
不吃姜: 请问“实际后续作者经过实验” 这个后续是在哪里看见的呀，对于tips那里，我也很是赞同，weight perturbation是对于weight为了让loss flat，所以应该是对weight求导，并且对于A和K_2设置为一，我个人的理解是，v是对weight的扰动，所以应该和weight的更新一起。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。