HazyDet: 雾天场景下无人机视角目标检测的开源基准与深度线索

最新推荐文章于 2025-01-02 09:00:00 发布

Together_CZ

最新推荐文章于 2025-01-02 09:00:00 发布

阅读量1.8k

点赞数 13

文章标签：无人机目标检测人工智能 HazyDet 大雾天气

本文链接：https://blog.csdn.net/Together_CZ/article/details/144019061

版权

今天看到一篇关于在大雾天气下无人机视角进行目标检测的研究工作HazyDet，文章主要内容如下：

问题背景：恶劣天气条件下（如雾天）的无人机目标检测面临挑战，缺乏相关基准数据集。
解决方案：
- HazyDet数据集：引入了一个大规模数据集，包含383,000个真实世界实例，涵盖自然雾天和人工添加雾效的图像。
- DeCoDet框架：提出了一种深度条件检测器（DeCoDet），利用深度信息提升雾天条件下的检测性能。DeCoDet包括多尺度深度感知检测头和动态深度条件核模块。
方法特点：
- 多尺度深度感知检测头（MDDH）：在不同尺度上学习深度信息。
- 动态深度条件核（DCK）：根据深度线索动态调整检测策略。
- 尺度不变修复损失（SIRLoss）：促进从伪标签中学习鲁棒的深度线索。
实验结果：在HazyDet数据集上的广泛评估表明，DeCoDet显著提升了检测性能，特别是在雾天条件下。
贡献：
- 提供了首个面向恶劣天气条件下无人机检测的大规模数据集。
- 提出了一种创新的目标检测框架，有效利用深度信息。
- 建立了基准和排行榜，促进相关研究的发展。
未来工作：计划探索更有效的模拟方法和解决雨、雪、低光等其他恶劣天气条件下的检测问题。

HazyDet通过引入大规模数据集和创新检测框架，显著提升了雾天条件下无人机目标检测的性能，填补了该领域的研究空白。这里趁着晚上闲下来的时间整体阅读了HazyDet的论文，这里是自己的阅读记录，感兴趣的h话可以参考一下，如果想要直接阅读原论文，可以来这里，如下所示：

摘要

在恶劣天气条件下进行无人机目标检测对于增强无人机的环境感知能力至关重要，但由于缺乏相关基准，这一领域仍未得到充分探索。为了填补这一空白，我们引入了HazyDet，这是一个专为雾天场景下无人机目标检测设计的大规模数据集。该数据集包含383,000个真实世界实例，收集自自然雾天环境和正常场景中人工添加雾效的图像，以模拟恶劣天气条件。通过观察不同深度和雾天条件下物体尺度和清晰度的显著变化，我们设计了一个深度条件检测器（DeCoDet），以利用这些先验知识。DeCoDet具有多尺度深度感知检测头，能够无缝集成深度感知，并通过动态深度条件核模块利用生成的深度线索。此外，我们提出了一种尺度不变的修复损失函数，以促进从伪标签中学习鲁棒的深度线索。在HazyDet数据集上的广泛评估表明，我们的方法具有灵活性和有效性，显著提升了性能。我们的数据集和工具包可在这里找到。如下所示：

关键词

恶劣天气，无人机视角目标检测，雾天条件，深度条件检测器

图1 恶劣天气下无人机目标检测面临的挑战。(a) 和 (b) 分别展示了由无人机视角引起的尺度变化和非均匀分布；(c) 和 (d) 展示了由恶劣天气引起的图像失真和特征领域差距。

1 引言

近年来，无人机（Unmanned Aerial Vehicles, UAVs）因其成本效益和多功能性而经历了指数级增长。无人机已被广泛应用于各个领域，包括精准农业、城市交通管理和军事侦察。这些应用的成功依赖于无人机搭载摄像机的准确感知能力。因此，开发针对无人机视角图像的鲁棒高效目标检测技术成为一个关键研究领域。

尽管在通用目标检测方面取得了显著进展，但这些技术的直接应用往往无法达到预期效果。这主要是因为无人机视角图像具有独特的视角特征。具体来说：

尺度变化：如图1(a)所示，无人机图像由于视角和高度变化，物体尺度变化显著，小物体更为常见。
非均匀分布：如图1(b)所示，无人机图像中的物体分布不均匀，与正常视角下的集中分布形成对比。

为了应对这些特殊性，研究人员开发了专门的算法。一种方法是通过多尺度特征融合来提高检测精度，捕捉不同尺度的物体。另一种方法采用从粗到细的策略，通过粗检测器识别大物体，细检测器定位小目标，从而提高检测精度和效率。

然而，这些方法主要集中在无人机图像的内在特征上，经常忽视户外环境中恶劣天气条件对无人机视角检测的影响：

图像退化：如图1(c)所示，恶劣天气条件会降低大气传输效率，减少能见度并导致图像颜色失真，影响图像质量和后续的视觉感知。
领域差距：如图1(d)所示，天气引起的图像退化会损害特征识别，导致模糊和语义模糊的特征，形成显著的领域差距。

为了缓解恶劣天气的影响，通常在自动驾驶领域中将检测器与图像恢复网络结合，以提高视觉质量。然而，恢复后的图像可能包含细微噪声，干扰后续任务。一种有前景的方法是将图像恢复与检测任务结合，通过学习配对清晰和退化图像的领域不变特征，显著提升检测器在恶劣天气条件下的场景理解能力。

尽管上述方法取得了进展，但在雾天条件下无人机平台上的效果仍未得到充分探索。一个主要障碍是缺乏相关数据集。为了解决这一问题，我们提出了HazyDet数据集，专注于雾天这一常见且影响显著的天气条件。HazyDet包括数千张精心筛选的无人机图像，标注了高质量的边界框，涵盖约383,000个物体。据我们所知，这是首个专为恶劣天气场景下无人机检测设计的大规模数据集。该数据集填补了关键空白，促进了鲁棒目标检测器的发展和评估。

此外，先前的模型经常忽略场景深度等辅助信息，并面临固定网络设计限制其适应能力的问题。基于这些考虑，我们提出了一种新的检测框架——深度线索条件检测器（DeCoDet）。DeCoDet通过利用深度信息提升雾天条件下的检测性能，无需显式图像恢复。它基于两个关键观察：无人机图像中物体特征与深度的相关性，以及图像空间中雾分布与场景深度的关系。DeCoDet根据学习的深度线索动态调整检测策略，有效应对雾天环境和无人机视角带来的挑战，显著提升检测性能。

综上所述，我们的贡献有三方面：

HazyDet数据集：我们引入了HazyDet，这是一个面向恶劣天气下无人机视角目标检测的大规模数据集，包含宝贵的真实世界数据。该数据集显著解决了这些特定任务的资源稀缺问题。
DeCoDet：我们提出了一种创新的目标检测框架，利用深度信息提升雾天条件下的无人机检测。通过根据深度线索动态调整检测策略，我们的网络有效应对无人机视角和雾天带来的挑战，提升整体检测器性能。
基准和排行榜：我们对最先进的检测和去雾方法进行了全面的定量和定性评估，建立了基准和排行榜，为研究社区提供了一个平台，以理解现有方法的局限性，并开发针对雾天条件下目标检测的鲁棒解决方案。

2 相关工作

2.1 无人机视角数据集

近年来，为了推动无人机视角检测的研究，开发了多种数据集。VEDAI数据集用于评估空中视角下的小型车辆检测，包含超过1,200张图像，标注了3,700多辆车辆。CARPK数据集包含1,448张无人机拍摄的停车场图像，标注了89,777辆汽车。UAVDT提供了约40,000张分辨率约为1080×540像素的图像，标注了城市环境中的汽车、公交车和卡车。VisDrone是最广泛使用的数据集之一，包含10,209张图像，详细标注了十个对象类别，包括边界框和遮挡、截断比率。然而，这些数据集通常聚焦于清晰理想条件。

随着无人机在恶劣环境中的部署增加，反映挑战性条件的数据集需求变得更加明显。Song等人提出的RS-Haze数据集通过Landsat-8 Level-1多光谱数据生成了超过50,000张雾模拟图像，以增强空中图像去雾研究。Chang等人提出的UAV-Rain1k数据集专注于去除雨滴，使用Blender在多样化角度的无人机图像上模拟雨滴形状。尽管这些进展，这些数据集主要针对低级图像恢复任务，通常缺乏下游视觉任务（如目标检测）所需的标注。

我们引入HazyDet数据集，以解决雾天这一常见问题的局限性。该数据集提供配对图像用于图像恢复，精确的对象标注用于检测，以及辅助深度信息。这种综合方法增强了在挑战性条件下的研究，解决了无人机目标检测中的关键空白。

2.2 无人机视角目标检测

无人机图像中的目标检测面临独特的挑战，由于飞行高度、角度和场景覆盖范围的显著变化。多尺度特征融合是应对这些复杂性的关键策略，对于管理不同大小的物体至关重要。例如，CFANet使用跨层特征聚合来弥合不同尺度间的语义差距，增强小物体的检测精度。SODNet采用自适应空间并行卷积模块，通过专门的特征提取和信息融合技术提升小物体的实时检测。

此外，无人机图像中物体的不均匀分布需要创新的重构检测过程，通常采用从粗到细的流水线。GLSANet利用自适应区域选择算法细化密集区域，并通过局部超分辨率网络提高子区域分辨率。UFPMP-DET框架集成统一前景打包流水线和多代理学习机制，解决小物体和不均匀分布的挑战，从而提高检测性能。ClusDet通过预测聚类区域并调整其大小来增强检测。此外，OGMN等模型显式建模目标物体间的遮挡，显著提升性能。

尽管这些进展，恶劣天气条件对无人机检测性能的影响仍未得到充分检验，我们的研究旨在填补这一空白。通过聚焦这些条件，我们的方法具有独特性，并扩展了现有研究。

2.3 恶劣条件下的目标检测

恶劣环境中的目标检测比正常条件下更具挑战性，由于图像质量下降和非典型特征。解决这一问题的方法可分为分离或联合优化范式。

图2 HazyDet中的图像和标注展示如下：第一行和第二行显示正常天气条件下的图像及其深度图；第三行显示合成雾天图像；第四行展示来自RDDTS的真实数据。在(a)和(b)中，展示了视角的变化（如倾斜和垂直）；在(c)和(d)中，展示了场景的变化（如城市和乡村）；在(e)和(f)中，展示了光照的变化（如明亮和低光）。

分离范式采用恢复算法预处理图像，旨在在实施目标检测模型前提高图像质量。尽管理论上这种方法具有优势，但实际上往往无法成比例地提高检测精度。在某些情况下，它甚至可能通过消除关键的高频细节来降低性能，这在无人机图像中观察到的小物体中尤为有害。相反，联合优化范式在统一框架中集成图像恢复和目标检测，显示出有前景的潜力。AOD-Net是最早将图像去雾与目标检测结合的先驱之一。IA-YOLO引入了一个图像自适应框架，其中每个图像被自适应增强以提升检测性能。DSNet采用双子网架构，共享特征提取层，使用多任务学习进行训练。BAD-Net开发了一个端到端架构，将去雾和检测连接起来，采用双分支结构和一个注意力融合模块，有效利用雾化和去雾化的特征。然而，这些方法通常需要来自源域和退化域的配对数据，这在实际中往往难以获取。

我们的方法与传统方法不同，通过利用辅助深度信息而不是建立检测与恢复网络之间的直接连接。这一策略丰富了网络对挑战性天气条件的理解，同时消除了对配对数据的依赖。因此，我们的方法显著提升了雾天环境下的检测性能，并能无缝集成到现有框架中，显示出在实际应用中的巨大潜力。

3 HazyDet数据集

缺乏标准化基准阻碍了雾天条件下无人机目标检测的发展。为了解决这一问题，我们开发了HazyDet，这是首个面向恶劣环境下无人机视角检测的大规模数据集。HazyDet包含合成和真实世界数据，具有高质量的多样化场景标注，如图2所示。尽管视角、场景和光照存在差异，真实数据与合成数据对齐良好。然而，真实数据呈现出更多样的大气变化，增加了视觉解释的复杂性。本节概述了数据集的构建过程并分析其特征。

图3 HazyDet数据集的构建过程，突出了数据收集和处理方法。标注的正常天气数据使用ASM模拟，而原本未标注的雾天数据采用半自动标注。

3.1 数据集构建

数据集构建过程如图3所示。任何基准的基础都是一个强大的数据集。然而，在雾天条件下获取大量无人机图像面临显著挑战，且标注这些低质量图像的成本高昂。因此，我们选择使用现有数据构建HazyDet数据集。利用大气散射模型（ASM），我们模拟并生成一个面向雾天场景的大规模无人机检测数据集，以支持算法的发展和评估。此外，我们在HazyDet中创建了一个独立的Real-hazy Drone Detection Testing Set（RDDTS），以评估真实世界条件下的检测器性能。

图4 基于SAM的雾模拟评估。(a) 各种深度估计模型的输出与使用相同ASM参数生成的相应图像。(b) 基于问卷调查的评估结果可视化，横轴表示不同案例，纵轴表示收到的投票百分比。

数据收集：我们首先从公开和私有数据集中收集了大量正常天气条件下的标注数据。在此过程中，我们观察到高场景重复率、错误标签和不一致的标注格式等问题。因此，我们进行了广泛的数据清理，包括删除模糊图像以确保后续模拟的稳定性。此外，我们通过实地摄影和在线资源收集了大量雾天天气下的未标注无人机图像，捕捉了城市、乡村和沿海地区等多样化环境中的广泛目标，以及不同的飞行高度和拍摄角度。

数据处理：许多研究探索了使用生成对抗网络或扩散模型生成逼真的合成雾天图像。这些方法由于深度网络的随机性可能导致图像失真，使原始标注失效。因此，我们使用基于ASM的更稳定的物理退化方法。合成过程如下，使用ASM作为生成雾天图像的经典公式：

受[37]启发，我们使用深度估计模型确定 d(x)。然而，该模型在新环境中泛化能力不足。在研究了最先进的深度估计方法后，我们选择了三种在零样本学习中表现优异的模型，在未知领域中具有优越的泛化能力。模拟结果如图4(a)所示。由于缺乏无参考指标准确评估雾模拟效果，我们还进行了问卷调查，评估合成图像在18种场景中的真实性、亮度分布和雾一致性。图4(b)显示，使用[40]生成的图像最接近真实场景。

对于收集的未标注真实雾天图像，采用了半自动标注方法。首先，我们在合成数据上训练高精度模型生成粗略标签，然后手动细化。每个标签经过二次审查以确保准确性，为RDDTS提供了可靠的地面实况，并测试了模型对真实雾天场景的适应性。

3.2 数据集统计和特征

数据集真实性：为了评估合成数据的真实性，我们使用Frechet Inception Distance（FID）和Kernel Inception Distance（KID）测试雾天数据集与RDDTS真实数据分布的相似性。图5显示，HazyDet比RESIDE-Out和4KDehaze等数据集更接近真实无人机拍摄的雾天条件。即使与URHI数据集中的真实数据相比，我们的方法也因其与无人机视角的对齐而表现优异。尽管FID和KID指数提供了合成雾天图像质量的一些见解，但它们与其他盲质量评估方法一样，预测分数可能与人类感知不一致。为了解决这一问题，我们进行了主观视觉比较，结果如图5所示。结果清楚表明，HazyDet在不同雾天水平下更准确地反映了真实雾天条件。

图5 与其他雾天场景数据集的真实性比较：客观指标（上方）和主观视觉评估（下方）。

实例统计和特征：表1提供了HazyDet数据集中各子集图像和实例数量的全面分解。该数据集包含11,000张合成图像，共365,000个对象实例。它被精心划分为训练、验证和测试子集，比例为8:1:2，涵盖汽车、卡车和公交车等对象类别。除了合成数据外，我们还收集了600张雾天天气条件下的图像，使用与合成方法一致的标注。合成和真实数据的集成，具有高对象密度，确保我们的数据集成为全面评估各种检测模型的高质量资源。

如表1所示，HazyDet的关键特征包括：长尾分布：数据集显示出明显的长尾分布，汽车在所有子集中占主导地位。显著的小物体：HazyDet比传统数据集具有更高比例的小目标，增加了检测挑战，需要精细的特征提取技术。

图6 无人机视角下物体大小与场景深度的相关性分析：横轴表示实例中心的相对深度，纵轴表示面积的对数尺度。（选择了HazyDet中1%的实例。）

表1 不同数据集子集的图像和实例统计。我们将目标分为三类：小目标的面积与图像面积比小于0.1%，中等目标的范围为0.1%到1%，大目标超过1%。

与深度相关的特征：HazyDet与深度信息有更广泛的联系。ASM表明，在一致的大气参数下，像素退化强度与场景深度线索呈指数相关，暗示深度图与雾天场景分布之间存在密切联系。此外，无人机的独特飞行高度和拍摄角度增强了图像中的透视效果，突显了目标大小与深度之间的清晰关系。如图6所示，较近的目标显得更大，符合直观预期。右上角的聚类结果来自垂直视角拍摄的图像，其中深度值趋近其最大值。这些与深度相关的见解为解释无人机图像在雾天环境中的场景提供了重要背景，可能支持各种场景解释任务。

图7 DeCoDet的框架。DeCoDet利用多尺度深度感知检测头（MDDH）学习深度信息，并使用深度图计算尺度不变修复损失（SIRLoss）。然后，利用学习到的特征动态生成深度线索条件核（DCK），调制分类和回归特征，从而影响检测行为。

4 方法论

我们提出了DeCoDet，一种将辅助深度信息集成到检测器中的创新解决方案。该设计利用了深度数据与无人机图像（特别是在雾天条件下）之间的协同作用，如第3.2节所述。我们假设深度信息可以增强网络对雾天退化内在机制和无人机视角下物体特征的理解能力。我们的目标是使网络能够有效学习深度线索，并利用这些线索动态调整检测器的行为，从而提升性能。在本节中，我们首先概述框架架构，然后探讨深度感知处理和深度条件的具体细节，强调它们在框架中的作用和功能。最后，我们介绍用于优化网络的损失函数。

4.1 DeCoDet概述

如图7所示，我们的网络包括一个主干网络、一个特征金字塔网络（FPN）和多尺度深度感知检测头（MDDH），其中包括一个深度线索条件核（DCK）模块。主干网络和FPN从输入图像中提取多尺度特征。我们的MDDH从这些特征中推导出不同尺度的深度图，并计算尺度不变修复损失（SIRLoss），使检测网络能够准确解释伪深度图中的深度信息。DCK模块根据包含深度线索的特征动态生成滤波器核，以调节分类和回归特征。最终，这些调制特征用于最终的目标检测。

4.2 多尺度深度感知检测头

主要挑战是使网络能够学习深度信息。与先前使用计算密集型上采样分支的工作不同，我们专注于检测头。我们在现有框架中引入了一个专门的深度估计分支，形成了MDDH。具体来说，我们通过FPN从主干网络中获取多尺度特征图 P={P1,P2,…,Pn}，其中 Pn 表示第n个头的特征图。对于每个尺度的特征图 Pn，我们应用 MM 层卷积，表示为 Fnm。该过程可以总结如下：

这种设计使网络能够在不同尺度上学习深度信息，为进一步发展奠定了基础。高层深度估计捕捉全局场景分布，区分天空和地面等区域，而低层深度估计提供详细的场景线索，有利于检测小目标。

4.3 深度线索条件核

第二个挑战是利用学习的深度信息提升检测性能。我们旨在通过根据深度线索调节分类和回归特征来优化检测。这基于以下认识：深度线索包含有用的先验场景知识，有助于减少误检并为多尺度目标的边界框回归提供尺度参考。传统的特征融合方法无法根据像素级深度线索动态调整特征权重。受超网络启发，我们设计了一个DCK机制。

我们在每个尺度上应用具有 MM 层的级联架构，使用残差连接防止深度估计错误对检测的损害。DCK的设计具有以下优势：网络可以根据不同空间位置的深度线索自适应分配权重，优先处理最具信息量的视觉元素，从而提高不同空间位置视觉模式适应能力。

4.4 损失函数

我们设计了DeCoDet的损失函数，结合深度估计和检测损失，确保在目标检测和深度估计方面的熟练度。

为了实现稳定的深度学习，我们提出了SIR-Loss。与传统损失函数不同，我们的方法采用尺度不变误差度量，评估对数深度变换后像素对关系的相对差异，关注对数深度值的差异而非绝对尺度。对于预测深度图 y 和地面实况 y∗，损失为：

这里，β 表示深度估计损失的平衡系数，设置为2.0，以确保其既不影响检测，也不太小以至于网络无法获取有用信息。

表2 在HazyDet数据集上各组件的消融研究。基线为FCOS，MDDH指多尺度深度感知检测头，DCK表示深度线索条件卷积模块，SIRLoss代表尺度不变修复损失函数。粗体表示最高性能。

5 实验

5.1 实现细节

我们选择在ImageNet上预训练的ResNet-50，因其出色的特征提取能力。为了增强数据多样性，每张图像以0.5的概率进行随机水平翻转。网络使用随机梯度下降（SGD）优化器训练12个周期，初始学习率为0.01，通过线性预热阶段调整，并在第8和第11周期后减少10倍。批量大小设置为2，权重衰减和动量分别为0.0001和0.938。输入RGB图像标准化为1333×800像素。我们的实现使用PyTorch框架，实验在配备NVIDIA 3090 GPU的工作站上进行。所有实验使用HazyDet训练数据集，并在其测试集和RDDTS上进行评估。DeCoDet的深度图由第3.1节描述的深度图生成。值得注意的是，HazyDet中的所有训练和验证集将作为开源资源提供。

为了客观评估算法性能，我们使用平均精度（mAP）和精度（AP）评估检测精度。对于效率评估，我们考虑每秒千兆浮点运算（GFLOPs）和模型参数。此外，为了评估去雾方法的性能，我们采用两个广泛认可的图像恢复指标：峰值信噪比（PSNR）和结构相似性指数（SSIM）。

5.2 消融研究

本节通过消融实验全面验证DeCoDet网络各组件的贡献。我们使用流行的单阶段检测器FCOS作为基线进行研究。评估指标包括合成和真实数据上的检测精度，以及模型参数和计算负担。表2展示了DeCoDet各组件在HazyDet数据集上的贡献。从基线开始，通过MDDH、DCK和SIRLoss逐步添加改进。引入MDDH在测试集和RDDTS上略微提升了mAP，尽管计算成本更高，但得益于多尺度深度感知。添加SIRLoss与MDDH进一步提升了检测精度，特别是卡车类别，尽管对公交车类别略有下降，突显了其在深度估计中的稳定作用。集成DCK（即使没有SIRLoss）显著提升了mAP，特别是卡车和汽车类别，展示了其利用深度线索的有效性。完全集成的DeCoDet模型（结合MDDH、DCK和SIRLoss）在总体mAP上达到最高，RDDTS公交车类别略有下降，强调了各组件在提升雾天条件下检测性能中的关键作用。

表3 不同深度图的有效性。粗体表示最高性能。

表4 不同DCK超参数对DeCoDet性能的影响。"W/o"表示"without"，粗体表示最高性能。

表5 不同深度估计损失的有效性。粗体表示最高性能。

表6 不同深度估计损失权重的有效性。

深度图的有效性：我们进行了实验，评估不同深度估计模型生成的深度图的影响。除了第3.1节讨论的模型外，我们还包括VA-DepthNet和ZoeDepth。表3显示，Metric3D的预测结果表现最佳，归因于其在深度估计精度和新环境中的泛化能力。这些结果强调了准确深度图对提升检测能力的关键必要性。

不同DCK设置的有效性：表4探讨了DCK模块中各种超参数及其对检测性能的影响。首先，评估了在不同分支上使用深度线索的性能影响。移除分类分支，仅在回归特征上应用DCK，导致显著性能下降，强调了利用深度信息调节分类分支以提高类别信息提取的重要性。相反，移除回归分支导致较小的性能下降，可能是由于深度预测图的低分辨率影响了回归增强。

此外，我们进行了全面的超参数评估。在探索空间维度时，我们评估了核大小的影响。将核大小增加到7×7一致提高了性能，计算成本增加最小。然而，进一步增大核大小导致性能下降，可能是由于引入了过多的上下文或噪声。在通道维度上，我们评估了不同核组的使用。与在所有通道上使用单一调制核相比，增加组数提高了通道间的信息交换和网络性能。然而，超过一定组数后，由于冗余和显著增加的计算成本，性能提升有限。

深度估计损失的有效性：表5概述了不同深度估计损失函数对性能的影响。传统的SmoothL1和MSE损失关注绝对差异，容易受到伪标签中的噪声影响，限制了有效利用深度线索进行条件。相比之下，SIRLoss保持尺度不变性并增强标签修复，产生了更高的mAP分数。此外，通过参数 ββ 优化结合深度估计和目标检测的统一损失函数，表6显示 β=2 提供了最佳平衡。过低或过高的值会破坏这种平衡，导致潜在的欠拟合或过拟合。

5.3 与最先进方法的比较

我们建立了一个全面的基准，以评估当前主流目标检测和去雾算法在HazyDet数据集上的性能。首先，我们评估检测算法的性能，为未来的发展提供有价值的见解。随后，我们评估最先进图像恢复模型的性能。

表7 不同最先进检测器在HazyDet数据集上的性能比较。粗体表示最高性能，下划线表示第二高。排名涵盖所有模型。

最先进检测器的性能：我们在HazyDet数据集上评估了18种领先的目标检测器，包括单阶段、两阶段和端到端方法。为确保公平比较，所有模型使用默认的12个周期训练计划（1×），DAB-DETR和Deformable DETR使用50个周期，YOLOv3和YOLOX使用300个周期。我们排除了测试时增强和多尺度训练，DAB-DETR和Deformable DETR需要增强数据增强。所有模型在HazyDet训练集的合成数据上训练，并在其测试集和RDDTS上评估，使用精度和效率作为指标。详细结果见表7。

表7的分析显示，检测器在测试集和RDDTS上的性能趋势一致，表明我们的模拟环境有效反映了真实世界的雾天场景。尽管每个检测器在雾天条件下各有优势，但也存在固有限制。单阶段检测器在速度和资源效率上表现优异，但通常在精度和泛化能力上有所妥协。两阶段检测器提供更高的检测精度，但计算效率较低。端到端检测器简化了流程工作流，但在复杂训练过程中面临挑战。当前算法在精度上仍有显著提升空间，特别是在真实雾天条件下。目标类型（如汽车、公交车、卡车）之间的检测精度变化突显了数据集中长尾分布的挑战，表明需要进一步的算法增强。我们的方法DeCoDet在大多数单阶段和两阶段检测器上表现优异，但被最先进的端到端检测器Deformable DETR超越。然而，这些先进检测器依赖于广泛的数据增强和更长的训练时间，限制了其实际应用。此外，我们的检测器参数更少，具有明显优势。

图8 HazyDet测试集上的图像去雾结果。从(a)到(j)：(a)和(b)分别显示参考清晰图像和相应的合成雾天图像；(c)到(j)分别是(c) GridDehaze [69]，(d) MixDehazeNet [70]，(e) DSANet [71]，(f) FFANet [18]，(g) DehazeFormer [72]，(h) C2PNet [73]，(i) DCP [74]，(j) RIDCP [75]的去雾结果。

表8 各种最先进去雾方法在HazyDet数据集上的性能比较。去雾模型的PSNR和SSIM指标通过比较去雾测试图像与参考清晰图像计算，而其检测性能基于使用基线检测器的去雾测试图像进行评估。“-”表示该项为空。粗体表示最高性能，下划线表示第二高。

最先进去雾模型的性能：我们进行了全面评估，以评估当代去雾模型对检测任务的影响，并探讨低级和高级视觉任务之间的关系。我们的研究发现，将去雾输出与在清晰图像上训练的检测模型结合，通常会导致性能下降，这一趋势在几乎所有评估模型中都观察到。研究涉及使用各种去雾算法预处理测试图像，然后将结果输入预训练的检测模型。我们使用广泛采用的Faster RCNN作为基线，该模型在未修改的清晰图像上训练了十二个周期。

图9 添加噪声的错误标签。第一行和第二行显示清晰图像及其相应的深度图，第三行显示添加噪声后的深度图。

图10 基线和DeCoDet的可视化比较。图像(a)和(b)分别显示模拟和真实雾天条件下的无人机图像。从左到右，图像表示地面实况和使用Grad-CAM [78]在主干网络不同层（从“C2”到“C5”）的热激活图。

图8显示了不同模型的去雾结果，表8展示了去雾后检测网络的性能，通过精度和图像恢复指标进行评估。如图所示，大多数去雾模型仅实现了轻微的清晰度和可见性提升，可能是由于缺乏针对无人机视角的设计考虑。此外，表8表明，去雾并不总是能提升检测性能。例如，GridDehaze和MixDehazeNet在RDDTS数据集上的性能有所下降。相比之下，一些模型如DSANet、FFA、DehazeFormer、gUNet和C2PNet在检测精度上表现出适度提升，RIDCP显示出显著优势。这些发现表明，尽管去雾可能有益，但某些模型可能在去雾过程中无意中损害了雾天图像的关键特征，导致新的领域转移挑战。恢复指标与检测精度之间的关系复杂；提高清晰度或主观图像质量（如PSNR和SSIM所衡量）并不一定转化为检测能力的提升。检测模型似乎从预处理方法中获益更多，这些方法在增强视觉质量的同时保留或增强目标检测的关键特征。

表9 使用不同百分比噪声深度图对DeCoDet性能的影响。

此外，我们研究了两种与去雾模型联合优化的检测模型：IA-YOLO和TogetherNet。尽管这些优化，两种方法在性能上均不如直接在雾天图像上训练的模型。这种次优性能可能归因于所用基线的不足。

5.4 额外分析

深度图质量的影响：我们认为现有DeCoDet模型的有限进展主要归因于深度图标注的不准确。为了探索这一点，我们分析了深度预测误差的影响。在没有更高质量深度估计的情况下，我们向原始图像引入噪声，导致深度图退化，如图9所示。我们逐步用这些噪声标签替换原始标签。如表9所示，高质量深度图显著提升了性能，而低质量深度图损害了网络学习，降低了性能。我们期望通过提高深度模型质量或使用准确深度图，性能将显著提升，这是我们未来研究的方向。

可视化：图10展示了基线和DeCoDet在合成和真实雾天条件下的特征热图。DeCoDet的集成使网络能够更准确地定位潜在目标区域，并有效集中注意力，从而提高检测精度。这种增强在传统模型通常难以应对的雾天环境中尤为明显。通过利用深度线索，DeCoDet不仅细化了相关特征的关注，还减轻了雾的影响，展示了其在恶劣天气条件下的鲁棒性和有效性。

对其他检测器的有效性：表7显示，将DeCoDet与各种单阶段检测器集成提高了性能。FCOS-DeCoDet在测试集上的mAP从45.9提升到47.4，在RDDTS上从22.8提升到24.3。然而，VFNet-DeCoDet的提升较小，由于其专门的检测头可能阻碍深度信息的学习，并在深度估计和检测任务之间平衡时面临挑战。因此，尽管DeCoDet有益，但在集成时考虑检测器架构以优化性能至关重要。

6 局限性和未来工作

本文提出的数据集虽然全面，但与真实世界场景中的复杂分布仍存在差异，导致模拟与真实数据之间的领域差距。因此，探索更有效的模拟方法对于增强我们对实际雾天条件下视觉感知的理解至关重要。此外，无人机的操作环境带来额外挑战，如雨、雪和低光条件，我们计划在未来的研究中解决这些问题。本文介绍了一种简单、实用且有效的方法，将深度信息作为检测任务的辅助工具。然而，当前方法的有效性受限于伪深度标签的不理想准确性。未来的工作可以通过整合更准确的深度数据和设计专门的架构来解决这些局限性，以提高恶劣天气条件下无人机目标检测的性能和能力。

7 结论

在本文中，我们介绍了HazyDet，这是首个专为恶劣天气条件下无人机图像检测设计的大规模数据集。我们的目标是为此类目标检测领域做出重大贡献。为此，我们开发了DeCoDet网络，利用先前被忽视的场景辅助信息，特别是深度。这一创新网络结合了深度估计和目标检测，采用跨模态深度信息。我们设计了MDDH，使网络能够在不同尺度上学习深度信息。此外，我们引入了DCK机制，利用学习的深度线索调节分类和回归任务，从而在无人机视角和雾天条件下提升检测性能。我们的实验证实了该框架及其组成部分的有效性。尽管所提出的框架在大规模基准上取得了先进性能，但仍有进一步改进的余地。我们希望这项工作能激励更多研究人员探索和贡献于恶劣天气条件下无人机检测的进展，从而促进无人机在现实世界场景中的更广泛发展和应用。