swin transformer 论文精读读后感

最新推荐文章于 2024-05-03 16:35:29 发布

irony_202

最新推荐文章于 2024-05-03 16:35:29 发布

阅读量174

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irony_202/article/details/123649343

版权

swin transformer：多层级基于移动窗口的transformer
动机：由于图像和自然语言还是有所区别，图像对同一物体可能出现在多尺度上，而ViT采用的是固定尺寸patch并且在全局上做自注意力，需要平方级的复杂度，而对于视觉领域一些下游任务需要多尺度以及高分辨率的情况下，ViT需要花费的资源太大导致无法训练，因此swin transformer结合了CNN和ViT的特点，将图片打成4*4的patch，再采用滑动窗口的模式一步步的合并做自注意力，从而达到了全局建模的效果，能够节省大量运算复杂度，同时也能满足一些任务对多尺度特征的要求（如密集物体检测等）。
结构：transformer块有两层自注意力层，一层是基于窗口做自注意力，再经过一层基于移动窗口的自注意力层。就可以在局部自注意力的基础上兼顾全局建模。同时，由于移动了窗口，原先自注意力的4个块变成了9个块，作者团队为了不增加运算的复杂度，在做自注意力时将左上角的三小块拼接到右下角，这样还是4个图片块做自注意力，同时为了不让不同图片块的patch做自注意力（原本不在一起），还加入了一种掩码，即不是相同图片块做自注意力（矩阵乘法）的区域为-100，相同图片块的乘积区域这是0，这样加上掩码就会使非相同图片块的乘积区域的值变成很小的负数，这样经过softmax之后就会接近0，不会有太大影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
swin transformer 论文精读读后感

swin transformer：多层级基于移动窗口的transformer动机：由于图像和自然语言还是有所区别，图像对同一物体可能出现在多尺度上，而ViT采用的是固定尺寸patch并且在全局上做自注意力，需要平方级的复杂度，而对于视觉领域一些下游任务需要多尺度以及高分辨率的情况下，ViT需要花费的资源太大导致无法训练，因此swin transformer结合了CNN和ViT的特点，将图片打成4*4的patch，再采用滑动窗口的模式一步步的合并做自注意力，从而达到了全局建模的效果，能够节省大量运算复杂度，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。