（八十三）：Vision Transformer with Deformable Attention

Laura_Wangzx

已于 2023-06-20 19:52:18 修改

阅读量330

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能深度学习

于 2022-03-27 09:10:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/123135539

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 202 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了变形注意力Transformer（DAT），一种结合了可变形注意力模块和视觉Transformer的新型模型，旨在解决传统Transformer过度关注和计算成本高的问题。DAT通过数据依赖的偏移量学习，使注意力模块能聚焦于相关区域，提高信息捕获效率，同时适用于图像分类和密集预测任务。实验证明，DAT在ImageNet-1K、COCO对象检测和ADE20K语义分割等任务上优于Swin Transformer等基线，特别是在处理大对象和小对象时表现突出。

摘要由CSDN通过智能技术生成

出处：CoRR abs/2201.00520 (2022)
代码：https://github.com/LeapLabTHU/DAT
题目：具有变形注意力的视觉变压器
主要内容：提出了一种新型可变形自注意力模块，其中以数据相关的方式选择自注意力中键值对的位置，使得自注意力模块能够专注于相关区域，并捕获更多信息特征。
前两个阶段主要学习局部特征，

Abstract

Trnsformers最近在各种视觉任务上表现出卓越的表现。巨大的、有时甚至是全球性的接受域赋予Transformer模型比CNN模型更高的表现能力。然而，单纯扩大接受野也会引起一些问题。
一方面，在ViT中使用密集的注意力会导致内存和计算成本过高，并且特征会受到超出兴趣区域的不相关部分的影响。
另一方面，在PVT或Swin Transformer中采用的稀疏注意是数据不可知的，可能会限制建模长期关系的能力。

为了缓解这些问题，我们提出了一种新的可变形的自我注意模块，该模块以数据依赖的方式选择了自注意中的键和值对的位置。

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。