UAV-DETR论文解析:2025年最新论文|无人机图像高效端到端物体检测,Efficient End-to-End Object Detection for Unmanned Aerial Veh

2025年最新UAV-DETR论文|无人机图像高效端到端物体检测

UAV-DETR论文|无人机图像高效端到端物体检测

文章末尾部分 包含 YOLO11、YOLOv8、YOLOv10、RT-DETR、YOLOv7、YOLOv5 等模型 结合+ UAV-DETR无人机图像高效端到端物体检测 原创改进核心内容


本文设计了 UAV-DETR,这是一种专为无人机图像设计的实时端到端目标检测器。通过引入 MSFF-FE 模块、FD 模块和 SAC 模块,UAV-DETR 缓解了航拍图像中检测小目标和遮挡目标的困难。
在这里插入图片描述
论文信息:Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
论文链接:https://arxiv.org/abs/2501.01855

在 VisDrone 和 UAVVaste 数据集上的实验结果表明,该方法在保持实时推理速度的同时,比现有相似计算成本的方法精度更高。未来将致力于提高其对噪声的鲁棒性,进一步完善模型性能。


1. UAV-DETR 论文理论部分解析


UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery核心内容总结

请添加图片描述

一、研究背景

(一)无人机目标检测的应用与挑战

配备摄像头的无人机(UAV)在众多领域得到广泛应用,无人机目标检测(UAV-OD)作为其中的核心技术备受关注。然而,现有的UAV-OD算法大多依赖手动设计的组件,像非极大值抑制(NMS)和基于人为经验生成的锚框,这些组件在不同任务中需要大量调优,在实际应用中既复杂又低效。

在这里插入图片描述

(二)端到端模型的现状与问题

端到端模型虽能避免手动设计组件的问题,但当前流行的端到端模型如检测变压器(DETR)及其改进版本,主要是针对自然图像设计的。在处理无人机图像时存在不足,因为无人机视觉中的目标特征比普通视觉更复杂,航拍图像面临小目标尺寸、遮挡等挑战,现有DETR模型计算成本高、实时性能差,不适合无人机图像分析的实时场景。

二、相关工作

(一)无人机图像中的目标检测

无人机图像目标检测在检测小目标和处理遮挡方面存在独特挑战,且常需部署在硬件平台上,要平衡实时性能和计算复杂度。现有研究方法包括粗到精处理流水线,这类两阶段方法精度高但计算开销大,不适合资源受限环境;还有优化的单阶段模型,旨在平衡检测精度和效率;此外,许多工作致力于捕获更多与检测小目标相关的特征,大多聚焦于利用更高分辨率的特征图,部分方法还利用上下文信息来增强小目标检测。但总体上,对后处理技术研究有限,且这些方法主要在空间域提取详细特征和上下文信息,频域信息利用不足。

(二)实时端到端目标检测

许多单阶段UAV-OD模型基于YOLO系列模型,因其性能和实时能力较平衡,但这类检测器通常需要NMS进行后处理,不仅减慢推理速度,还引入超参数,导致速度和精度不稳定。相比之下,实时检测变压器(RT-DETR)是首个实时端到端目标检测器,它通过基于注意力的尺度内特征交互、基于CNN的跨尺度特征融合和不确定性最小化查询选择,在速度和精度上超越了最强大的YOLO模型,其端到端设计策略使其比YOLO系列模型更适合在无人机平台上部署。

(三)特征融合

特征融合技术旨在结合多尺度特征图以改进目标检测,但不同层次特征之间的语义差距带来挑战,特别是在检测小目标和密集分布目标时。直观的融合方法如对不同层特征图求和或连接,常导致空间特征不对齐。一些基于池化和采样的注意力机制研究尝试解决此问题,但这些方法主要关注空间特征融合,未考虑频域信息。虽有部分工作探索频域融合,但在跨空间和频域的有效多尺度融合方面存在不足。而本文提出的UAV-DETR在空间和频域进行多尺度特征融合,并通过学习偏移量解决特征不对齐问题,提升检测性能。

三、核心工作:UAV-DETR模型

(一)模型架构概述

UAV-DETR基于RT-DETR架构构建,通过三个关键组件进行增强,分别是多尺度特征融合与频率增强模块(MSFF-FE)、频率聚焦下采样模块(FD)和语义对齐与校准模块(SAC)。此外,引入内Scylla交并比(Inner-SIoU)替换广义交并比(GIoU)作为损失函数。

(二)多尺度特征融合与频率增强(MSFF-FE)

在这里插入图片描述

在传统特征融合中,高频分量容易丢失,MSFF-FE模块旨在通过结合多尺度的空间和频域信息来保留小目标细节。该模块采用跨阶段部分策略,将输入特征图 x ∈ R C × H × W x \in \mathbb{R}^{C ×H ×W} xRC×H×W划分为两部分: x 1 ∈ R C 1 × H × W x_{1} \in \mathbb{R}^{C_{1} ×H ×W} x1RC1×H×W x 2 ∈ R C 2 × H × W x_{2} \in \mathbb{R}^{C_{2} ×H ×W} x2RC2×H×W ,其中 C 1 = C 4 C_{1}=\frac{C}{4} C1=4C C 2 = 3 C 4 C_{2}=\frac{3C}{4} C2=43C

  1. 特征处理流程
    • 首先, x 1 x_{1} x1经过1×1卷积调整通道维度,再通过GELU激活函数引入非线性,得到 x c o n v x_{conv} xconv
    • 然后,对 x c o n v x_{conv} xconv进行全局平均池化(GAP)操作,接着进行傅里叶变换(F)和逆傅里叶变换(IF),实现频域增强,计算公式为:
      x s p = ∣ I F ( C o n v 1 × 1 ( G A P ( x c o n v ) ) ⋅ F ( x c o n v ) ) ∣ x_{sp}=\left|IF\left(Conv_{1 × 1}\left(GAP\left(x_{conv}\right)\right) \cdot F\left(x_{conv}\right)\right)\right| xsp=IF(Conv1×1(GAP(xconv))F(xconv))
    • 为捕获多尺度信息,对 x s p x_{sp} xsp应用三个不同内核大小的卷积,公式为:
      x s c = C o n v 1 × 1 ( x s p ) + C o n v 3 × 3 ( x s p ) + C o n v 5 × 5 ( x s p ) x_{sc}=Conv_{1 × 1}\left(x_{sp}\right)+Conv_{3 × 3}\left(x_{sp}\right)+Conv_{5 × 5}\left(x_{sp}\right) xsc=Conv1×1(xsp)+Conv3×3(xsp)+Conv5×5(xsp)
    • 之后,通过通道注意力机制进一步优化多尺度特征 x s c x_{sc} xsc,利用门控机制调制和细化,计算公式为:
      x F = α ⋅ I F ( F ( C o n v 1 × 1 ( x s c ) ) ⋅ C o n v 1 × 1 ( x s c ) ) + β ⋅ x s c x_{F}=\alpha \cdot IF\left(F\left(Conv_{1 × 1}\left(x_{sc}\right)\right) \cdot Conv_{1 × 1}\left(x_{sc}\right)\right)+\beta \cdot x_{sc} xF=αIF(F(Conv1×1(xsc))Conv1×1(xsc))+βxsc
      其中 α \alpha α β \beta β是学习参数,用于平衡空间和频率分量,此公式被称为频率聚焦模块,将在网络后续阶段使用。
    • 最后,增强后的特征在与未处理的 x 2 x_{2} x2合并之前进行最终融合,公式为:
      x f i n a l = x 1 + C o n v 31 × 31 ( x c o n v ) + C o n v 1 × 1 ( x c o n v ) + x F x_{final }=x_{1}+Conv_{31 × 31}\left(x_{conv }\right)+Conv_{1 × 1}\left(x_{conv }\right)+x_{F} xfinal=x1+Conv31×31(xconv)+Conv1×1(xconv)+xF
      最终输出通过将 x f i n a l x_{final } xfinal x 2 x_{2} x2连接,再经过1×1卷积得到。

(三)频率聚焦下采样(FD)

在这里插入图片描述

在频率聚焦下采样模块(FD)中:

  1. 下采样与特征分离:输入特征图 x ∈ R C × H × W x \in \mathbb{R}^{C ×H ×W} xRC×H×W首先使用内核大小为2、步长为1的平均池化进行下采样,得到池化后的特征图 x p x_{p} xp,然后将其分为两部分 x 1 x_{1} x1 x 2 x_{2} x2,并对它们进行并行处理。
  2. 并行处理路径
    • 对于 x 1 x_{1} x1,使用步长为2、填充为1的3×3卷积进行处理,在降低空间维度的同时保留关键特征,得到 x 1 ′ x_{1}' x1
    • 对于 x 2 x_{2} x2,一条路径应用频率聚焦模块增强重要特征分量,得到 x f x_{f} xf;另一条路径使用3×3内核、步长为2的最大池化,然后通过1×1卷积减少通道数,得到 x p ′ x_{p}' xp
  3. 输出合并:将 x f x_{f} xf x p ′ x_{p}' xp沿通道维度连接,再通过1×1卷积将通道数减少到所需大小,得到 x 2 ′ x_{2}' x2。最后,将 x 1 ′ x_{1}' x1 x 2 ′ x_{2}' x2连接形成该模块的最终输出。

(四)语义对齐与校准(SAC)

语义对齐与校准(SAC)模块用于融合和对齐不同融合过程中获得的特征。

  1. 特征预处理:给定两个输入特征 x 1 ∈ R C 1 × H 1 × W 1 x_{1} \in \mathbb{R}^{C_{1} ×H_{1} ×W_{1}} x1RC1×H1×W1 x 2 ∈ R C 2 × H 2 × W 2 x_{2} \in \mathbb{R}^{C_{2} ×H_{2} ×W_{2}} x2RC2×H2×W2,SAC模块首先通过单独的卷积层将通道数统一到公共维度 c c c。然后,使用双线性插值对 x 2 x_{2} x2进行上采样,使其空间维度与 x 1 x_{1} x1匹配。
  2. 频率增强与融合:为增强 x 2 x_{2} x2,应用频率聚焦模块,选择性放大高频分量,生成频率增强特征 x f r e q x_{freq } xfreq。之后,将频率增强特征 x f r e q x_{freq } xfreq与原始上采样后的特征 x 2 x_{2} x2融合,利用门控机制平衡空间和频域的贡献,计算公式为:
    x f u s e d = G ( x 2 ) ⋅ x f r e q + ( 1 − G ( x 2 ) ) ⋅ x 2 x_{fused }=G\left(x_{2}\right) \cdot x_{freq }+\left(1-G\left(x_{2}\right)\right) \cdot x_{2} xfused=G(x2)xfreq+(1G(x2))x2
    其中 G G G是学习到的门控函数,用于确保空间和频域信息的自适应融合。
  3. 特征对齐与融合:为解决 x 1 x_{1} x1 x f u s e d x_{fused } xfused之间的不对齐问题,SAC模块学习2D偏移量 Δ 1 \Delta_{1} Δ1 Δ 2 \Delta_{2} Δ2 ,通过卷积层生成这些偏移量,利用基于网格的采样操作调整特征图的采样网格,以调整特征的空间坐标,确保两个特征对齐,公式为:
    x 1 a l i g n e d = G r i d S a m p l e ( x 1 , Δ 1 ) x_{1}^{aligned }=GridSample\left(x_{1}, \Delta_{1}\right) x1aligned=GridSample(x1,Δ1)
    x f u s e d a l i g n e d = G r i d S a m p l e ( x f u s e d , Δ 2 ) x_{fused }^{aligned }= GridSample \left(x_{fused }, \Delta_{2}\right) xfusedaligned=GridSample(xfused,Δ2)
    最后,使用元素加权求和融合对齐后的特征,公式为:
    x o u t p u t = α 1 ⋅ x 1 a l i g n e d + α 2 ⋅ x f u s e d a l i g n e d x_{output }=\alpha_{1} \cdot x_{1}^{aligned }+\alpha_{2} \cdot x_{fused }^{aligned } xoutput=α1x1aligned+α2xfusedaligned
    其中 α 1 \alpha_{1} α1 α 2 \alpha_{2} α2是学习到的注意力权重,用于平衡每个对齐特征的贡献。

(五)损失函数

RT-DETR使用GIoU损失进行边界框回归,在小目标检测时效果不佳,尤其是当交并比(IoU)值较低时。为解决此问题,UAV-DETR采用Inner-SIoU,它结合了Inner-IoU和SCYLLA-IoU(SIoU)。Inner-SIoU将辅助边界框缩放1.25倍以提高灵敏度并加速收敛,像SIoU一样,它添加角度和形状损失以减少角度和距离不匹配。

  1. Inner-IoU计算:对于给定的预测框 B i n n e r B^{inner } Binner和真实框 B g t i n n e r B_{gt}^{inner} Bgtinner ,Inner-IoU的计算方式为:
    I n n e r − I o U = ∣ B i n n e r ∩ B g t i n n e r ∣ ∣ B i n n e r ∪ B g t i n n e r ∣ Inner-IoU =\frac{\left|B^{inner } \cap B_{gt}^{inner }\right|}{\left|B^{inner } \cup B_{gt}^{inner }\right|} InnerIoU= BinnerBgtinner BinnerBgtinner
    其中 B i n n e r B^{inner } Binner B g t i n n e r B_{gt}^{inner} Bgtinner分别表示扩展后的预测框和真实框,两个框的宽度和高度都缩放1.25倍, ∣ B i n n e r ∩ B g t i n n e r ∣ \left|B^{inner } \cap B_{gt}^{inner }\right| BinnerBgtinner ∣ B i n n e r ∪ B g t i n n e r ∣ \left|B^{inner } \cup B_{gt}^{inner }\right| BinnerBgtinner 分别表示扩展框之间的重叠面积和并集面积。
  2. Inner-SIoU损失计算:Inner-SIoU损失定义为:
    L I n n e r − S I o U = L S I o U + I o U − I n n e r − S I o U L_{Inner-SIoU }=L_{SIoU}+IoU- Inner-SIoU LInnerSIoU=LSIoU+IoUInnerSIoU
    其中IoU是标准IoU损失, L S I o U L_{SIoU} LSIoU包括角度、距离和形状惩罚项。

四、实验

(一)实验设置

  1. 数据集:在两个目标检测数据集上进行定量实验,分别是VisDrone和UAVVaste。
    • VisDrone-2019-DET数据集包含6471张训练图像、548张验证图像和3190张测试图像,图像从不同高度、不同地点的无人机拍摄,每张图像标注了10种预定义目标类别的边界框,实验使用其训练集和验证集分别进行训练和测试。
    • UAVVaste数据集专为航拍垃圾检测设计,包含772张图像和3716个在城市和自然环境(如街道、公园、草坪)中手动标注的垃圾注释,实验选取其训练集进行训练,测试集进行测试。
  2. 实现细节:所有模型在NVIDIA GeForce RTX 3090上训练。UAV-DETR模型基于RT-DETR,设计了两种模型尺寸,分别使用ResNet18和ResNet50作为骨干网络。模型训练400个epoch,批次大小为4,采用提前停止机制,耐心值设为20。使用AdamW优化器,学习率为0.0001,动量为0.9。将输入图像缩放至640×640像素,使用RT-DETR模型的数据增强方法,并应用mixup和Mosaic技术,Mosaic概率设为1,mixup概率设为0.2。实验报告标准COCO指标,包括AP(在0.50 - 0.95均匀采样的IoU阈值上平均,步长为0.05)和 A P 50 AP_{50} AP50(IoU阈值为0.50时的AP)。

(二)对比实验

  1. VisDrone数据集结果:在VisDrone数据集上,UAV-DETR-R18相比基线RT-DETR-R18,AP提升3.1%, A P 50 AP_{50} AP50提升4.2%;UAV-DETR-R50相比基线,AP提升3.1%, A P 50 AP_{50} AP50提升4.1%。UAV-DETR-R18在计算成本低于100 GFLOPs的方法中精度最高,与计算成本相似的其他目标检测器相比,UAV-DETR在精度上也更优,甚至与像PP-YOLOE-P2-Alpha-l这类受益于大量预训练的方法相比,UAV-DETR仍表现出色。
  2. UAVVaste数据集结果:在UAVVaste数据集上选择UAV-DETR-R18进行评估,因其在计算效率和检测精度间达到最佳平衡,适合在小数据集上评估。与其他模型相比,UAV-DETR仍保持竞争优势,相比基线,AP提升3.3%, A P 50 AP_{50} AP50提升3.6%。结果表明该方法在无人机图像目标检测中可行且有效,且模型性能不受数据量大小影响,不依赖大量标注数据。

(三)消融实验

在VisDrone数据集上使用UAV-DETR-R18进行消融实验,分析每个组件对检测精度的影响。

  1. 组件影响分析:基线RT-DETR-R18的AP为26.7, A P 50 AP_{50} AP50为44.6。引入Inner-SIoU后,AP提升至27.1,表明改进损失函数对性能有积极影响。添加MSFF-FE模块后,AP进一步提升至28.4,体现了多尺度特征融合和频率增强的优势。加入FD模块使 A P 50 AP_{50} AP50提升至47.1,融入SAC模块后,AP达到28.9, A P 50 AP_{50} AP50提升至47.7。当所有组件结合时,UAV-DETR-R18达到最高性能,AP为29.8, A P 50 AP_{50} AP50为48.8,展示了每个模块对检测精度的累积影响。
  2. Inner-SIoU参数选择:实验表明,将Inner-SIoU的比例设为1.25是合适的选择。
  3. 模型性能指标计算:计算基线和UAV-DETR模型的每秒帧数(FPS),结果显示UAV-DETR能够满足实时要求。

(四)可视化

通过绘制VisDrone数据集中小目标的热图(聚焦于边界框预测的反向传播),对比基线模型和UAV-DETR。结果显示,UAV-DETR在定位小目标方面能力显著提升,其热图中小目标的热值更高,表明能更有效捕获小目标特征,且更关注小目标周围信息,在定位遮挡目标方面表现良好。但模型偶尔会聚焦于无关区域,这是未来需要解决的问题。

在这里插入图片描述

(五)讨论

UAV-DETR与其他UAV-OD模型相比有两个关键差异:一是无需NMS和锚框设置,降低了模型部署的复杂性;二是在特征融合中利用了双域信息,使其在相似计算成本下精度更高。

  1. 性能提升原因
    • 模型保留了更多高频特征,在传统特征融合和下采样过程中高频特征易丢失,而MSFF-FE和FD模块使模型在特征融合和下采样时能结合空间和频域信息,保留重要高频分量,这对检测小目标至关重要。
    • 模型能更好地利用上下文信息,当小目标难以基于精细细节检测时,其周围语义上下文很关键,频域操作帮助模型捕获全局模式,提高检测精度。但频域操作可能导致不同特征图的语义和空间信息不对齐,SAC模块通过对齐不同融合路径的特征,提升了整体检测性能,消融实验也证明了这些模块的有效性。
  2. 研究展望:研究结果表明利用频域信息可提升UAV-OD性能,为UAV-OD任务中更好地使用频率信息提供了思路。未来工作将聚焦于提高模型对噪声的鲁棒性。

五、芒果YOLO系列改进:基于 UAV-DETR 原创改进内容🚀🚀🚀


5.1 将 ARConv 改进到 YOLO11 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLO11改进173:2025年1月最新论文UAV-DETR出品:即插即用:多尺度频率增强模块和频率聚焦下采样模块,无人机图像的高效检测变压器,大幅涨点


5.2 将 ARConv 改进到 YOLOv8 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLOv8改进185:2025年1月最新论文UAV-DETR出品:即插即用:多尺度频率增强模块和频率聚焦下采样模块,无人机图像的高效检测变压器,大幅涨点


5.3 将 ARConv 改进到 YOLOv10 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLOv10改进138:2025年1月最新论文UAV-DETR出品:即插即用:多尺度频率增强模块和频率聚焦下采样模块,无人机图像的高效检测变压器,大幅涨点


5.4 将 ARConv 改进到 RT-DETR 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLOv8改进185:2025年1月最新论文UAV-DETR出品:即插即用:多尺度频率增强模块和频率聚焦下采样模块,无人机图像的高效检测变压器,大幅涨点 适用于 ultralytics 版本的 RT-DETR


5.5 将 ARConv 改进到 YOLOv7 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLOv7原创改进


5.6 将 ARConv 改进到 YOLOv5 中 - 基于 UAV-DETR 原创改进核心内容

详情改进内容点击:🚀🚀🚀芒果YOLOv5原创改进


### 关于 UAV-DETR 模型 UAV-DETR 是一种基于 Transformer 的无人机目标检测模型,旨在解决空中图像中小物体密集分布的问题。该模型通过引入高效的特征融合机制来增强对复杂场景的理解能力[^1]。具体而言,UAV-DETR 利用了 DETRDetection Transformer)的核心思想,在此基础上针对无人机拍摄的高分辨率遥感影像进行了优化。 #### 特征融合与改进 为了提升检测性能,UAV-DETR 集成了多尺度特征金字塔网络(FPN),并进一步设计了一种自适应注意力模块,用于捕捉不同尺度下的语义信息和空间细节。这种架构能够有效缓解传统卷积神经网络在处理大范围比例变化时遇到的困难。 此外,UAV-DETR 还借鉴了一些先进的技术理念,例如 Deformable DETR 中提出的可变形注意力机制以及 Conditional DETR 提供的位置编码策略。这些创新使得 UAV-DETR 能够更精准地定位目标边界框,并减少误检率[^2]。 以下是实现 UAV-DETR 的基本框架代码示例: ```python import torch from torchvision import models from transformers import DetrForObjectDetection class UAV_DETR(torch.nn.Module): def __init__(self, num_classes=91): # 默认 COCO 数据集类别数为 91 super(UAV_DETR, self).__init__() # 加载预训练的 DETR 模型作为基础结构 self.detr = DetrForObjectDetection.from_pretrained('facebook/detr-resnet-50') # 替换分类头以适配新的类别数量 in_features = self.detr.class_labels_classifier.in_features self.detr.class_labels_classifier = torch.nn.Linear(in_features, num_classes) def forward(self, inputs): outputs = self.detr(inputs) return outputs # 初始化模型实例 model = UAV_DETR(num_classes=80) # 假设数据集中有 80 类对象 print(model) ``` 上述代码展示了如何构建一个简单的 UAV-DETR 模型原型。需要注意的是,实际应用中可能还需要调整超参数设置、增加数据增广操作或者微调损失函数权重等步骤以获得更好的效果。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芒果学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值