【第11篇】微软发布的Dynamic Head，2024Python网络编程总结篇

最新推荐文章于 2024-04-23 18:27:10 发布

2401_83739503

最新推荐文章于 2024-04-23 18:27:10 发布

阅读量617

点赞数 7

分类专栏： 2024年程序员学习文章标签：网络

本文链接：https://blog.csdn.net/2401_83739503/article/details/136933749

版权

开发一个好的物体检测头的挑战可以概括为三类。首先，头部应该是尺度感知的，因为具有截然不同尺度的多个对象通常共存于一个图像中。其次，头部应该具有空间意识，因为在不同的视点下，物体通常以截然不同的形状、旋转和位置出现。第三，头部需要具有任务意识，因为对象可以有各种表示（例如，边界框 [12]、中心 [28] 和角点 [33]），它们拥有完全不同的目标和约束。我们发现最近的研究 [12, 35,28, 31, 33] 只专注于以各种方式解决上述问题之一。如何开发一个可以同时解决所有这些问题的统一头仍然是一个悬而未决的问题。

在本文中，我们提出了一种新的检测头，称为动态头，以统一尺度感知、空间感知和任务感知。如果我们将主干的输出（即检测头的输入）视为维度为 level × space × channel 的 3 维张量，我们会发现这种统一的 head 可以被视为注意力学习问题。一个直观的解决方案是在这个张量上建立一个完整的自注意力机制。然而，优化问题太难解决，计算成本也无法承受。

相反，我们可以在特征的每个特定维度上分别部署注意力机制，即水平、空间和通道。 scale-aware attention module只部署在level这个维度上。它学习各种语义级别的相对重要性，以根据其规模为单个对象在适当的级别上增强特征。空间感知注意力模块部署在空间维度（即高度 × 宽度）上。它在空间位置上学习连贯的判别式表示。任务感知注意力模块部署在通道上。它根据来自对象的不同卷积核响应，引导不同的特征通道分别支持不同的任务（例如，分类、框回归和中心/关键点学习）。

通过这种方式，我们明确地为检测头实现了统一的注意力机制。尽管这些注意力机制分别应用于特征张量的不同维度，但它们的性能可以相互补充。在 MS-COCO 基准上的大量实验证明了我们方法的有效性。它为学习更好的表示提供了巨大的潜力，可用于改进各种目标检测模型，AP 增益为 1:2% ~ 3:2%。使用标准的 ResNeXt-101-DCN 主干，所提出的方法在 COCO 上实现了最先进的 54:0% AP。此外，与 EffcientDet [27] 和 SpineNet [8] 相比，动态头部使用 1=20 的训练时间，但具有更好的性能。此外，借助最新的 Transformer 主干和来自自训练的额外数据，我们可以将当前最佳 COCO 结果推至 60.6 AP 的新记录（详见附录）。

2 相关工作

=================================================================

最近的研究侧重于从各种角度改进目标检测器：尺度感知、空间感知和任务感知。

**规模意识。**许多研究已经意识到尺度感知在物体检测中的重要性，因为具有巨大不同尺度的物体通常共存于自然图像中。早期的工作已经证明了利用图像金字塔方法 [6, 24, 25] 进行多尺度训练的重要性。代替图像金字塔，特征金字塔 [15] 被提出通过连接一个下采样卷积特征的金字塔来提高效率，并已成为现代目标检测器的标准组件。然而，不同层次的特征通常是从网络的不同深度提取的，这会导致明显的语义差距。为了解决这种差异，[18] 提出通过特征金字塔自下而上的路径增强来增强较低层的特征。后来，[20] 通过引入平衡采样和平衡特征金字塔对其进行了改进。最近，[31] 提出了一种基于修改的 3-D 卷积同时提取尺度和空间特征的金字塔卷积。在这项工作中，我们在检测头中提出了一个尺度感知的注意力，这使得各种特征级别的重要性适应输入。

**空间意识。**以前的工作试图提高对象检测中的空间意识，以实现更好的语义学习。众所周知，卷积神经网络在学习图像中存在的空间变换方面受到限制 [41]。一些工作通过增加模型能力（大小）[13, 32] 或涉及昂贵的数据增强 [14] 来缓解这个问题，导致推理和训练中的计算成本极高。后来，提出了新的卷积算子来改进空间变换的学习。 [34] 建议使用扩张卷积从指数扩展的感受野中聚合上下文信息。 [7] 提出了一个可变形卷积来对具有额外自学偏移量的空间位置进行采样。 [37]通过引入学习的特征幅度重新制定了偏移量，并进一步提高了其能力。

在这项工作中，我们在检测头中提出了空间感知注意力，它不仅将注意力应用于每个空间位置，而且还自适应地将多个特征级别聚合在一起以学习更具辨别力的表示。

**任务意识。**对象检测起源于两阶段范式 [39, 6]，它首先生成对象提议，然后将提议分类为不同的类和背景。 [23] 通过引入区域提议网络 (RPN) 将两个阶段表述为单个卷积网络，将现代双阶段框架形式化。后来，一级物体检测器[22]因其高效率而流行起来。 [16] 通过引入特定于任务的分支来进一步改进架构，以超越两级检测器的精度&#

最低0.47元/天解锁文章

2401_83739503

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
【第11篇】微软发布的Dynamic Head，2024Python网络编程总结篇

给定来自特征金字塔中 L 个不同级别的特征 F in = { F i } i = 1 L \mathcal{F}_{\text {in }}=\left\{F_{i}\right\}_{i=1}^{L} Fin ={Fi}i=1L的串联，我们可以使用上采样或下采样将连续级别特征调整为中值级别特征的尺度。包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
复制链接

扫一扫

专栏目录