基于遥感图像的频繁而准确的目标检测是监测地球表面感兴趣目标动态的一种令人鼓舞的方法。 最近开发了基于 Transformer 的目标检测,以应对基于区域提议和基于回归的目标检测所面临的大计算负载和精度牺牲之间的权衡困境,其自注意力机制可以提供具有潜在能力的全局理解 用于推理稀疏异构分布的地理空间对象内的位置关系。 然而,基于变压器的目标检测在建模局部特征层次以补偿地理空间目标的大规模变化方面本质上很弱,并且由于缺乏归纳偏差而训练起来极其困难,导致收敛速度慢。 为了克服这个问题,本文提出了一种基于 TRansformer 架构的具有 InterweAved 全局-局部特征层次结构的双网络结构(DIAG-TR),以缓解全局和局部特征形式的不兼容,并将局部特征分层嵌入到全局表示中 。 此外,将可学习的锚框合并到解码器部分的位置查询中以提供空间先验,这可以加速收敛。 所提出的 DIAG-TR 在广泛使用的光学遥感图像 DIOR 数据集上进行了验证,结果表明,与原始基于 Transformer 的方法相比,全局-局部特征层次贡献了 3.4% 的平均精度,并且缩短了收敛时间 2.5 倍。 还参与了最先进的方法作为比较基准,DIAG-TR 比基线方法高出 8.9%,这证明 DIAG-TR 在地球观测领域具有巨大的潜力
随着遥感图像空间分辨率的提高,从对地观测中频繁、准确地识别感兴趣的地理空间目标对于广泛的应用至关重要,例如城市规划中的违法建设[1]、[2]、军事侦察[3]、 以及用于交通控制的飞机和车辆监控[4],[5]。 目标检测是承担两项主要任务的最主要技术之一,即目标的自动识别和精确地理定位的定位[6]、[7]。
在过去的几十年里,计算机视觉界提出了各种基于深度学习的目标检测方法,并取得了令人印象深刻的性能。 通常,应首先从全局场景中选择对象的候选边界框/锚点,并提取每个候选对象