各类注意力机制Attention——可变形注意力

最新推荐文章于 2025-04-24 08:55:52 发布

清风幻影17

最新推荐文章于 2025-04-24 08:55:52 发布

阅读量1k

点赞数 1

文章标签： transformer Attention 自然语言处理深度学习 bert Deformer DETR

本文链接：https://blog.csdn.net/weixin_41021342/article/details/132677816

版权

本文深入探讨了Attention机制的各种形式，包括稀疏Attention、残差Attention、通道注意力、空间注意力和时间注意力，特别强调在序列类任务中时间注意力的应用，如Transformer解码器中的预测过程，以及可变形注意力的新发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Attention is all you need 》

在这里插入图片描述

稀疏Attention

在这里插入图片描述

残差Attention

在这里插入图片描述

通道注意力

在这里插入图片描述

空间注意力

在这里插入图片描述

时间注意力

实际上序列类任务也属于时间注意力，比如transformer decoder逐个预测模型

在这里插入图片描述

可变形注意力

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

清风幻影17

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

注意力机制详解系列（三）：空间注意力机制

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

02-28

2万+

本篇为注意力机制系列第三篇，主要介绍注意力机制中的空间注意力机制，着重详解DCN、Non-local、ViT、DETR等模型，下一篇将对混合注意力机制和时域注意力机制进行讲解。

【YOLOv10改进-注意力机制】DAT（Deformable Attention）：可变形注意力

专注于图像领域，主要研究内容包括计算机视觉和深度学习，特别是在图像分类、目标检测和图像生成等方面有深入的研究和实践经验。

07-06

1043

Transformer最近在各种视觉任务中表现优异。全局的感知域使Transformer模型比CNN具有更强的表示能力。然而，简单地扩大感受野也引起了一些问题。一方面，使用较为密集的注意力，例如在ViT中，会导致过多的内存和计算成本，并且功能可能会受到超出兴趣区域的无关部分的影响。另一方面，在PVT或Swin Transformer中采用的较为稀疏的注意机制是与数据无关的，这可能会限制对于长距离关系的建模能力。

参与评论您还未登录，请先登录后发表或查看评论

可形变注意力机制的总结

qq_49746822的博客

09-20

4561

本篇文章总结了目前顶刊上发表的可形变注意力机制的内容和代码。

【有啥问啥】什么是Deformable Attention（可变形注意力机制）？

Chauvin的博客

08-09

5487

稀疏注意力机制的主要思想是通过减少需要计算注意力的键点数量来降低计算复杂度。与全局注意力机制不同，稀疏注意力机制只关注输入特征中的一部分关键位置，而不是全部位置。这种选择性注意力可以显著降低计算量，并且在实际应用中能够提高计算效率。固定稀疏注意力：在这种方法中，模型预先定义一个固定的稀疏模式。例如，可以选择在每个特征点上只计算其与周围特征点的注意力，而忽略远离的特征点。这种方法简单但不够灵活，因为稀疏模式在整个训练过程中是固定的。动态稀疏注意力。

可变形注意力（Deformable Attention）及其拓展

weixin_47748259的博客

02-23

1万+

右侧的可变形卷积因为感受野的每一个点都有偏移量，造成卷积核在图片上滑动时对应的感受野的点不会重复选择，这意味着会采样9 x 9=81个采样点，比传统卷积更多。对感受野上的每一个点加一个偏移量，偏移的大小是通过学习得到的，偏移后感受野不再是个正方形，而是和物体的实际形状相匹配。传统卷积核在卷积过程中由于会存在重叠，最终输出后的感受野范围小，而可变性卷积中因为有偏移，不会有重叠，从而感受野范围更大。可变形卷积将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程，从而使结构适应物体形变的能力更强。

【算法学习、超详细】Deformable DETR：可变形注意力机制——DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

qq_50001789的博客

02-21

4202

论文题目：《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》在本文中，作者提出了可变形注意力机制，将transformer的计算度压缩为线性复杂度，在降低DETR推理速度、加速模型收敛的同时引入了多尺度信息，极大地提升了DETR目标检测算法的性能。

YOLOv8改进 | 注意力机制 | 添加Deformable-LKA可变形大核注意力（涨点幅度超高）

走向CTO的路上...

06-22

1184

在YOLOv8中引入Deformable-LKA可变形大核注意力机制可以显著提高模型的性能，尤其是在目标检测的多尺度目标检测性能方面。Deformable-LKA可变形大核注意力机制是一种基于可变形卷积和注意力机制的注意力机制，它可以捕获更丰富的特征信息，并增强模型对目标特征的关注。添加Deformable-LKA可变形大核注意力机制是一种有效的改进方案，可以显著提升模型的性能，使其成为多尺度目标检测、小目标检测、全景目标检测等任务的优选方案。

YOLOv11改进：可变形双级路由注意力（DBRA）——突破注意力机制瓶颈的革新设计

最新发布

Loving_enjoy的博客

04-24

154

在目标检测领域，YOLO系列始终是技术演进的标杆。2024年10月，Ultralytics推出的YOLOv11凭借**可变形双级路由注意力（Deformable Bi-Level Routing Attention, DBRA）**模块，在关键点检测任务中实现了Pose mAP50从0.871到0.913的暴力涨点，引发业界广泛关注。其在YOLOv11中的成功实践，不仅为实时检测任务提供了新的技术范式，更启示我们：**通过模拟人脑的注意力筛选机制，AI模型能够实现从“看见”到“理解”的质变**。

YOLOv5改进 | 注意力篇 | BiFormer双层路由注意力机制(Bi-level Routing Attention)

Snu77的博客

12-29

3781

BiFormer是一种结合了Bi-level Routing Attention的视觉Transformer模型，BiFormer模型的核心思想是引入了双层路由注意力机制。在BiFormer中，每个图像块都与一个位置路由器相关联。这些位置路由器根据特定的规则将图像块分配给上层和下层路由器。上层路由器负责捕捉全局上下文信息，而下层路由器则负责捕捉局部区域的细节。具体来说，上层路由器通过全局自注意力机制对所有图像块进行交互，并生成全局图像表示。下层路由器则使用局部自注意力机制对每个图像块与其邻近的图像块进行

多尺度可形变注意力机制MultiScaleDeformableAttn

li4692625的博客

01-26

3797

这个模块是将 Transformer 的全局注意力变为局部注意力的一个非常关键的组件，用于减少训练时间，提高 Transformer 的收敛速度；该机制来源于BEVFormer中的技术；目前已集成到MMCV MMDET3d中。

各式各样神奇的注意力机制变型

专栏

06-26

507

只需要关注附近的attention, local attention 和cnn 差不多，可以加速计算，但效果不一定好。同一个clustering 里面计算attention，不同的clustering 不计算attention。不需要一个N*N的matrix 很多的信息是重复的，我们可以拿掉重复的信息，只保留不重复的信息。会导致Output sequence 的长度减少，长度的减少会对不同的任务有不同的影响。大的attention 算，小的attention 的值不算。

YOLOv8改进添加可变形注意力机制DAttention

分享一些自己改进代码的实例

12-29

7186

手把手教你在yolov8原结构中加入可变形注意力机制DAttention，可以根据输入学习调整注意力模式，从而提高网络性能和效率。助力涨点！！！！！！

YOLOv8独家原创改进：SPPF自研创新 | 可变形大核注意力（D-LKA Attention），大卷积核提升不同特征感受野的注意力机制

12-09

1341

可变形大核注意力（D-LKA Attention）高效结合SPPF进行二次创新，大卷积核提升不同特征感受野的注意力机制。

当可变形注意力机制引入Vision Transformer

pprp的博客

01-22

1975

【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力，在降低模型参数量的同时提升获取大感受野的能力，文内附代码解读。引言 Transformer由于其更大的感受野能够让其拥有更强的模型表征能力，性能上超越了很多CNN的模型。然而单纯增大感受野也会带来其他问题，比如说ViT中大量使用密集的注意力，会导致需要额外的内存和计算代价，特征很容易被无关的部分所影响。而PVT或者Swin Transformer中使用的sparse attention是数

详解可变形注意力模块（Deformable Attention Module）

热门推荐

David's Tweet

02-20

2万+

Deformable Attention（可变形注意力）首先在2020年10月初商汤研究院的《Deformable DETR: Deformable Transformers for End-to-End Object Detection》论文中提出，在2022CVPR中《Vision Transformer with Deformable Attention》提出应用了Deformable Attention（可变形自注意力）机制的通用视觉Transformer骨干网络DAT（Deformable Att

可变形注意力转换器综述

gongdiwudu的专栏

09-26

5451

关于注意力机制，关于transformer等存在大量的研究和尝试，这些研究有的被沙汰，有的被采用并发扬光大，本篇对可变卷积、可变局部注意力机制和全局注意力机制做详细解释。因为这些模型规模巨大，环节琐碎，需要一点点积累才能掌握全局。本文不力求面向宏大叙事，而是就注意力机制的变革进行有限的注解。

清华提出DAT：具有可变形注意力的视觉Transformer

阿木寺的博客

01-05

8304

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达Vision Transformer with Deformable Attention论文：https://arxiv...

注意力机制（Attention Mechanism）

qq_38304138的博客

04-01

3812

注意力机制 卷积、全连接、池化层都只考虑不随意线索 注意力机制则显示的考虑随意线索随意线索被称之为查询（query）每个输入是一个值（value）和不随意线索（key）的对通过注意力池化层来有偏向性的选择某些输入非参注意力池化层给定数据（，），平均池化是最简单的方案：更好的方案是60年代提出来的Nadaraya-Watson核回归 Nadaraya-Watson核回归使用高斯核那么总结心理学任务人通过随意线索

AI 人工智能一文搞懂Transformer架构的三种注意力机制

人工智能讲师分享前沿技术

03-26

650

这里，查询（Q）是你要找的内容，键（K）表示字典里有什么样的信息，而值（V）则是对应的信息；在普通的字典查找中，字典会找到匹配的键，并返回其对应的值；我们介绍了Transformer中的三种不同的注意力层，以及注意力的实现方法，位置编码和多头注意力机制，涵盖了大部分注意力相关的知识点，希望朋友们对它有了近一步的了解。要构建一个因果自注意力层，在计算注意力分数和求和注意力值时需要使用适当的掩码，因为输出序列也是一次性输入的，但在计算前面分词的时候是不希望它后面的分词也参与计算的。这些模型是“因果”的。

可变形卷积+注意力机制论文

04-03

### 可变形卷积与注意力机制结合的研究近年来，可变形卷积（Deformable Convolution）和注意力机制（Attention Mechanism）成为计算机视觉领域的重要研究方向之一。两者结合可以显著提升模型在特征提取方面的性能。 #### Pyramid Feature Attention Network for Saliency Detection 一种典型的结合方法可以在《Pyramid Feature Attention Network for Saliency Detection》中找到[^1]。该论文提出了金字塔特征注意网络（PFAN），通过引入空间注意力机制来增强不同尺度下的特征表示能力。具体而言，PFAN利用了多级特征图的空间关系，并结合可变形卷积调整采样位置的能力，从而实现更精确的目标检测和分割效果。 #### Generative Hierarchical Features from Synthesizing Image 另一篇相关工作来自《Generative Hierarchical Features from Synthesizing Image》，其中讨论了如何生成分层特征并将其应用于图像合成任务[^2]。虽然这篇论文的主要关注点并非完全针对可变形卷积，但它展示了如何将自适应权重分配给不同的感受野区域，这实际上是一种形式化的注意力应用方式。这种技术能够进一步扩展到其他场景，比如目标跟踪或语义理解等领域。以下是基于上述两篇文章以及其他背景知识总结的一些关键概念： - **动态感知域调节**：可变形卷积允许滤波器根据输入数据自动学习偏移量，这意味着它可以灵活改变其接受范围而无需固定网格布局。 - **全局上下文建模**：通过加入通道间依赖性和跨位置交互作用，注意力模块帮助捕捉长期关联性以及局部细节信息之间的联系。下面给出一段简单的伪代码用于说明如何在一个标准 CNN 架构上集成这两种组件: ```python import torch.nn as nn class DeformAttnConvBlock(nn.Module): def __init__(self, in_channels, out_channels): super(DeformAttnConvBlock, self).__init__() # 定义常规卷积层作为初始处理单元 self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1) # 添加可变形卷积操作以增加灵活性 self.deform_conv = ModulatedDeformConvPack(out_channels, out_channels, kernel_size=(3, 3), stride=1, padding=1, dilation=1, deformable_groups=1) # 使用SENet风格的挤压激励结构构建注意力子网路 reduction_ratio = 8 mid_chs = max(out_channels // reduction_ratio, 4) self.attn_fc1 = nn.Linear(out_channels, mid_chs) self.relu = nn.ReLU(inplace=True) self.attn_fc2 = nn.Linear(mid_chs, out_channels) self.sigmoid = nn.Sigmoid() def forward(self, x): identity = x # 经过普通卷积预处理后的张量 feat = self.conv(x) # 应用可变形卷积获取更具表现力的特征映射 offset_mask = ... # 计算得到offset mask的具体逻辑省略 feat_deformed = self.deform_conv(feat, offset_mask) # 实现通道维度上的注意力计算流程 b, c, _, _ = feat_deformed.size() avg_pool = nn.AdaptiveAvgPool2d((1))(feat_deformed).view(b,c) fc_out_1 = self.relu(self.attn_fc1(avg_pool)) fc_out_2 = self.sigmoid(self.attn_fc2(fc_out_1)).unsqueeze(-1).unsqueeze(-1) weighted_feat = feat_deformed * fc_out_2.expand_as(feat_deformed) output = identity + weighted_feat return output ``` 此代码片段定义了一个融合了可变形卷积与注意力机制的基础构件——`DeformAttnConvBlock`类实例对象会接收任意大小批次的数据向量序列并通过一系列变换最终返回经过优化改进的新版本表达结果。 ---

各类注意力机制Attention——可变形注意力

目录

《Attention is all you need 》

稀疏Attention

残差Attention

通道注意力

空间注意力

时间注意力

可变形注意力