YOLOv11改进 | 注意力篇 | YOLOv11引入CoTAttention注意力

小李学AI

于 2024-10-07 19:00:32 发布

阅读量133

点赞数 4

分类专栏： YOLOv11有效涨点专栏文章标签： YOLO 深度学习目标检测人工智能计算机视觉机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tsg6698/article/details/142744523

版权

YOLOv11有效涨点专栏专栏收录该内容

该专栏为热销专栏榜第5名

60 篇文章 12 订阅 ¥69.90 ¥99.00

订阅专栏

1. CoT介绍

1.1 摘要：具有自注意力的 Transformer 引发了自然语言处理领域的革命，最近激发了 Transformer 式架构设计的出现，在众多计算机视觉任务中取得了具有竞争力的结果。然而，大多数现有设计直接在 2D 特征图上采用自注意力，以获得基于每个空间位置处的孤立查询和键对的注意力矩阵，但未充分利用邻居键之间的丰富上下文。在这项工作中，我们设计了一种新颖的 Transformer 风格模块，即上下文变换器（CoT）块，用于视觉识别。这种设计充分利用输入键之间的上下文信息来指导动态注意力矩阵的学习，从而增强视觉表征的能力。从技术上讲，CoTblock 首先通过 3×3 卷积对输入键进行上下文编码，从而产生输入的静态上下文表示。我们进一步将编码密钥与输入查询连接起来，通过两个连续的 1×1 卷积学习动态多头注意力矩阵。学习到的注意力矩阵乘以输入值以实现输入的动态上下文表示。静态和动态上下文表示的融合最终作为输出。我们的 CoT 块很有吸引力，因为它可以轻松替换 ResNet 架构中的每个 3 × 3 卷积，从而产生名为上下文变换网络 (CoTNet) 的 Transformer 风格主干。通过对广泛应用（例如图像识别、对

了解本专栏

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。