可变形的Tranformer算法详解与源码——DAT:Vision Transformer with Deformable Attention

樱花的浪漫

已于 2023-05-23 23:47:14 修改

阅读量2k

点赞数 2

分类专栏： transformer MMLAB实战+深度学习模型剪枝与部署+顶会论文文章标签： transformer 深度学习人工智能计算机视觉目标检测

于 2022-08-26 11:30:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52053775/article/details/126539034

版权

MMLAB实战+深度学习模型剪枝与部署+顶会论文同时被 2 个专栏收录

25 篇文章 13 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

32 篇文章 19 订阅

订阅专栏

源码即示例数据见文末

Windows环境下可运行

1.概述

最近，Transformer被广泛应用于视觉领域中，使用大规模数据集训练的Tranformer深度模型性能已经具备一定的优越性。但是Transformer的计算量巨大，对设备的要求更高（显存），这主要是由于每个queries patch要参加的keys过多，会导致计算成本高，收敛速度慢，并增加了过拟合的风险。并且我们往往过多的考虑了不相干的部分。

现有的研究，如swin transformer和PVT虽然有效，但手工制作的注意力模式（Swin transformer主要采用窗口，而PVT使用卷积或池化对Key和Values进行下采样）是与数据无关的，可能不是最佳的。相关的keys/values很可能被删除，而不那么重要的keys仍然被保留。

受可变形卷积的启发，作者希望能够设计出一种可变形的Transformer。但是与DCN保留卷积核的大小，而使用偏置和插值法重构卷积核内部的特征点的做法不同，作者并不是希望采用类似的方式重构每一个Patch的特征点，这在计算成本上是巨大的。作者希望能够找到最具代表性的Keys和Values，使用这些具有代表性的Keys和Values参与运算，以实现缩减计算量的目的。

具体来说，从实现的角度，首先，初始化一组keys和values关键点,它的个数是可以进行设置的࿰

了解本专栏

超级会员免费看

樱花的浪漫

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
可变形的Tranformer算法详解与源码——DAT:Vision Transformer with Deformable Attention

和分别表示变形的键嵌入和值嵌入。具体来说，我们将采样函数（·；·）设置为一个双线性插值，使其可微：其中和索引了上的所有位置。由于g只在最接近的4个积分点上不为零，因此它简化了等式（8）到4个地点的加权平均值。与现有的方法类似，我们对q、k、v进行多头注意，并采用相对位置偏移r。注意头的输出表述为：其中对应于之前的工作[26]之后的位置嵌入，同时有一些适应。细节将在本节后面解释。每个头的特征被连接在一起，并通过Wo进行投影，得到最终的输出z为等式(3)....
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱花的浪漫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。