当可变形注意力机制引入Vision Transformer

最新推荐文章于 2024-10-07 20:56:56 发布

*pprp*

最新推荐文章于 2024-10-07 20:56:56 发布

阅读量1.9k

点赞数 3

分类专栏： Transformer 论文总结文章标签： transformer 深度学习人工智能

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/dd_pp_jj/article/details/122643764

版权

【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力，在降低模型参数量的同时提升获取大感受野的能力，文内附代码解读。

引言

Transformer由于其更大的感受野能够让其拥有更强的模型表征能力，性能上超越了很多CNN的模型。

然而单纯增大感受野也会带来其他问题，比如说ViT中大量使用密集的注意力，会导致需要额外的内存和计算代价，特征很容易被无关的部分所影响。

而PVT或者Swin Transformer中使用的sparse attention是数据不可知的，会影响模型对长距离依赖的建模能力。

由此引入主角：Deformabel Attention Transformer的两个特点：

data-dependent: key和value对的位置上是依赖于数据的。
结合Deformable 方式能够有效降低计算代价，提升计算效率。

下图展示了motivation:

图中比较了几种方法的感受野，其中红色星星和蓝色星星表示的是不同的query。而实线包裹起来的目标则是对应的query参与处理的区域。

(a) ViT对所有的query都一样，由于使用的是全局的注意力，所以感受野覆盖全图。

(b) Swin Transformer中则使用了基于window划分的注意力。不同query处理的位置是在一个window内部完成的。

© DCN使用的是3x3卷积核基础上增加一个偏移量，9个位置都学习到偏差。

(d) DAT是本文提出的方法，由于结合ViT和DCN，所有query的响应区域是相同的，但同时这些区域也学习了偏移量。

方法

先回忆一下Deformable Convolution：

简单来讲是使用了额外的一个分支回归offset，然后将其加载到坐标之上得到合适的目标。

在回忆一下ViT中的Multi-head Self-attention:

最低0.47元/天解锁文章

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

*pprp* 如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。