YOLOv8目标检测创新改进与实战案例专栏
专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
专栏链接: YOLOv8基础解析+创新改进+实战案例
介绍

摘要
学习捕捉远程关系是图像/视频识别的基础。现有的CNN模型通常依赖于增加深度来建模这种关系,这效率极低。在这项工作中,我们提出了“双重注意力块”,这是一个新颖的组件,它从输入图像/视频的整个时空空间聚合和传播有用的全局特征,使后续的卷积层能够高效地访问整个空间的特征。该组件设计了两个步骤的双重注意力机制,第一步通过二阶注意力池化将整个空间的特征聚集到一个紧凑集,第二步通过另一个注意力自适应地选择和分配特征到每个位置。提出的双重注意力块易于采用,可以方便地插入现有的深度神经网络中。我们进行了广泛的消融研究和实验,以评估其在图像和视频识别任务中的性能。在图像识别任务中,配备了我们双重注意力块的ResNet-50在ImageNet-1k数据集上以超过40%的参数量和更少的FLOPs超越了更大规模的ResNet-152架构。在动作识别任务中,我们提出的模型在Kinetics和UCF-101数据集上实现了最新的最先进结果,效率显著高于最近的工作。
文章链接
论文地址:论文地址
代码地址:代码地址
基本原理
双重注意力机制(Double Attention)的详细介绍及其技术原理
技术原理
双重注意力机制(Double Attention Mechanism)由两个主要步骤组成:特征聚合(Feature Gathering)和特征分配(Feature Distribution)。这一机制旨在有效地捕获输入数据中全局特征,从而使后续的卷积层能够更高效地访问这些特征。
-
特征聚合(Feature Gathering):
- 输入张量: X ∈ R c × d × h ×
订阅专栏 解锁全文
1205

被折叠的 条评论
为什么被折叠?



