CV——day84 多尺度变形注意与多层特征聚合遥感目标检测

本文链接：https://blog.csdn.net/qq_43537420/article/details/129633730

本文提出了MSDAM和MLFAM两种模块，集成到FPN中以提升遥感图像目标检测的性能。MSDAM利用DConvs处理变形，而MLFAM则进行全局特征提取和聚合，以处理不同尺度和变形程度的对象。实验在DIOR和RSOD数据集上显示了提出的方法优于现有基线方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多尺度变形注意与多层特征聚合遥感目标检测

多尺度变形注意与多层特征聚合遥感目标检测
I. INTRODUCTION
II. METHODOLOGY
III. EXPERIMENTS
IV. CONCLUSION

多尺度变形注意与多层特征聚合遥感目标检测

Multiscale Deformable Attention and Multilevel Features Aggregation for Remote Sensing Object Detection

I. INTRODUCTION

multiscale deformable attention module (MSDAM) ——多尺度变形注意模块

如图1(b)所示，鉴于FPN生成的多级特征(记为P2-P5)， MLFAM（multilevel features aggregation module ,多级特性聚合模块）首先，提取整个图像的全局上下文(记为Pg)。然后，对Pg和P2-P5进行DConvs (deformable convolutions, DConvs)聚合和细化，得到具有可变形接受域的特征图。最后，利用改进后的特征映射增强FPN的多级输出，生成新的金字塔表示A2-A5，用于后续的目标检测。

这样，新生成的金字塔中的每个特征图都包含了FPN中不同层捕获的全局上下文信息和互补信息，因此对RSOD（遥感图像检测）更加有效。

II. METHODOLOGY

A. 多尺度变形注意模块(MSDAM)

A. Multiscale Deformable Attention Module （MSDAM）

C5采用跨尺度特征融合(CSFF)，注意机制，使网络在突出目标特征的同时抑制背景特征。C5可能无法为遥感图像生成精确的注意图，原因有二。

神经网络的有效接收域比理论接收域小得多，特别是在深层；特征图C5的有效接受域较小，无法编码足够的信息来预测精确的注意图。
遥感图像中的对象实例具有变形和大尺度变化的特点，固定形状、单尺度感受场的特征图C5很难很好地拟合这些对象并预测精确的遥感图像注意图。

如图2所示，我们提出了一种基于DConv的新型MSDAM。在输入特征图 C5的情况下，MSDAM

首先使用了1×1 Conv层，将其通道数从2048减少到512。相应生成的特征图记为C0_5。

其次，将四个连续的3×3 DConvs应用于C0_5，生成四个接受野逐渐增加的特征图，这样就可以捕捉到足够的信息。

接着，将C1_5 - c4_5沿通道轴级联得到具有多尺度可变形接收域的新特征图，并在新特征图上应用3 × 3卷积层和sigmoid激活函数生成注意图A 。

最后，将特征图C5与其对应的注意图A相乘，得到注意调制特征图C_out。

B. 多级特性聚合模块(MLFAM)

B. Multilevel Features Aggregation Module

由于FPN中每个方案的特征都具有固定形状的接受域，因此FPN可能无法准确定位不同变形程度的遥感物体。因此，我们提出MLFAM，如图1(b)所示，首先提取整个图像的全局上下文，然后将其与FPN学习到的P2-P5进行聚合。

聚合后的特征通过变形卷积进一步细化，得到具有可变形接受域的特征映射。最后，MLFAM利用改进后的特征增强FPN的原始特征，为后续的目标检测生成更强大的表示A2-A5。具体而言，MLFAM包括全局上下文提取、特征缩放和聚合、特征细化和恢复三个步骤。

1)全局特征提取

给定最高级别的特征图 P5, MLFAM使用全局上下文模块(GCM)来提取输入图像的全局上下文。

具体来说，GCM首先使用全局平均池聚合特征地图P5的空间信息，生成空间上下文描述符Pavg 5。然后，GCM通过Pavg 5通过一个全连通层，得到整个图像的全局上下文。

GCM的总体过程如下: Pg = FC(AvgPool(P5)) (1)

Avgpool是全局平均池的操作，FC表示全连接层。

2)功能缩放和聚合

为了聚合新生成的全局上下文Pg和从FPN获得的多级特征P2-P5, MLFAM将它们调整为中等大小，具体来说，通过平均池化层，P2和P3的大小被调整为与P4相同的大小，分别生成P∗_ 2 和 P∗_3。相反，P5使用双线性插值将其大小调整为P4的大小，Pg中的值沿着空间维度广播以匹配P4的大小，从而分别产生P∗ _ 5和P∗ _ g。一旦特征被重新缩放，通过以下的平均操作得到聚合的特征:

3)特征细化与恢复

由于遥感对象通常具有不同程度的变形，具有固定形状接受域的聚合特征Pagg很难很好地处理遥感对象。因此，Pagg通过两个连续的3×3 DConvs进一步细化，得到一个具有可变形接收域的新特征图。经过提炼，然后利用平均池化或双线性插值对提炼后的特征进行缩放，增强FPN的多级输出，生成更强大的金字塔特征A2-A5。

III. EXPERIMENTS

A.数据集描述和评估指标

在DIOR和RSOD数据集上对该方法进行了验证。这两个数据集的详细描述如下。

**1) DIOR数据集:**DIOR数据集是用于光学遥感图像对象检测的大规模、公开可用的基准数据集。它由23463张图片和192472个实例组成，涵盖了20个对象类。

**2) RSOD数据集:**RSOD是另一个遥感数据集。它包含976张图片和6950个对象实例，包括4个对象类别，包括油箱、飞机、天桥和游乐场。RSOD数据集的空间分辨率范围也很广，从0.3到3 m不等。

B.实施细节

在这封信中，我们采用了以ResNet-50为骨干的FPN[3]基线方法。所有模型在4个NVIDIA GTX TITAN X GPU(每个GPU 3张图像)上使用小批量随机梯度下降(SGD)优化方法进行训练。权重衰减和动量分别设置为0.0001和0.9。调整输入图像的大小，使其较长的一侧有800像素。对于DIOR数据集，初始学习速率设置为0.02，在9 - 11 epoch时降低到0.002，在12 epoch时降低到0.0002。对于RSOD数据集，epoch的总数设置为22。学习速率最初设定为0.005，并在第16和20代除以10。