硬刚恶劣天气！Mamba 引领目标检测新风向

最新推荐文章于 2025-03-06 10:05:58 发布

自动驾驶之心

最新推荐文章于 2025-03-06 10:05:58 发布

阅读量2.2k

点赞数 6

文章标签：目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247602850&idx=3&sn=afcdab8527c0d38d7129275079d3b78b&chksm=cff6000501f47b253ff5681f0b1cb1dae9c3f355e72288ec37264539d88b01604a4edf2eed1e&scene=126&sessionid=0

版权

作者 | 小书童编辑 | 集智书童

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『目标检测』技术交流群

本文只做学术分享，如有侵权，联系删文

跨模态图像融合了可见光-红外光谱线索，可以为目标检测提供更丰富的互补信息。尽管如此，现有的可见光-红外目标检测方法在恶劣天气条件下严重退化。这种失败源于可见图像对环境扰动的显著敏感性，如雨、雾和雪，这些常常导致检测中的假阴性和假阳性。

为了解决这个问题，作者引入了一项新颖且具有挑战性的任务，称为恶劣天气条件下的可见光-红外目标检测。为了促进这一任务，作者构建了一个新的恶劣天气可见光-红外数据集（SWVID），其中包含了多样化的恶劣天气场景。

此外，作者提出了带有天气去除（CFMW）的跨模态融合曼巴，以增强恶劣天气条件下的检测准确性。

得益于所提出的天气去除扩散模型（WRDM）和跨模态融合曼巴（CFM）模块，CFMW能够挖掘跨模态融合中行人特征的更基本信息，从而能够高效地转移到其他更罕见的场景，并在计算能力较低的平台上有足够的可用性。

据作者所知，这是首次针对改进并在跨模态目标检测中同时集成扩散和曼巴模块的研究，成功提高了这类模型的实用性和更先进的架构。

在公认的和作者自行创建的数据集上的大量实验都明确证明了作者的CFMW达到了最先进的检测性能，超越了现有的基准。

数据集和源代码将在https://github.com/lhy-zjut/CFMW上公开提供。

1. Introduction

在开放和动态的环境中，目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略，跨模态目标检测方法已达到高精度，例如CFT（杨等人，2017年）、GAFF（杨等人，2017年）和CFR(杨等人，2017年)。

然而，如图1所示，这些方法的表现往往受到不利天气条件的挑战，这会严重影响视觉数据的可见性和质量。尽管红外图像在一定程度上可以提供补充线索，但它无法修复视觉图像的外观扭曲或信息丢失。因此，在不利天气条件下，传统的跨模态目标检测方法仍然面临严重的性能下降。

现有方法不能直接应用于不利天气条件，因为环境干扰削弱了可见图像的色彩范围，而现有的融合方法难以充分融合可见光和红外光谱，也没有在相应的数据集上进行充分的训练。为了填补这一研究领域的空白，作者构建并发布了一个名为严重天气可见-红外数据集（SWVID）的新数据集，并提出了一种名为带天气消除的跨模态融合曼巴（CFMW）的新框架。

为了促进该领域的研究，作者提出了一种新的可见-红外数据集，名为SWVID，它通过在图像上数学形式化各种天气现象的影响，旨在涵盖多样化的严重天气场景。具体来说，SWVID包含了对齐的可见-红外图像对，涵盖了三种天气条件和两种场景，每种条件和场景均匀分布。

受到图1中强调的关键研究缺口的启发，即在不利天气条件下，当前方法表现不佳，作者引入了CFMW，用于在不利天气条件下的多光谱目标检测。作者的CFMW利用天气消除扩散模型（WRDM）和跨模态融合曼巴（CFM）来提高不利天气条件下的检测精度。

图1。作者提出的方法可以在不利天气条件下实现高精度的跨模态目标检测。顶部两个示例来自CFT（杨等人，2017年），而底部两个示例来自CFMW（作者的）。

在最小化计算负担的同时。具体来说，在融合红外对应图像之前，使用WRDM来恢复受影响的可见图像，为图像融合网络提供即插即用的兼容性。基于学习逆转来增加噪声的顺序并破坏数据样本的过程，WRDM模型有利于最小化不利天气条件的影响。此外，CFM可以集成到特征提取的主干中，有效地整合来自不同模态的全局上下文信息。最近的研究表明，曼巴（Mamba，2019年）比等效规模的 Transformer 实现了更高的推理速度和整体指标。据作者所知，本研究代表首次尝试将扩散模型和曼巴用于多光谱目标检测。

在既有的和自创的数据集上的大量实验表明，作者的CFMW方法与现有基准相比，取得了卓越的检测性能。具体来说，与当前的图像恢复方法相比，作者实现了大约17%的性能提升。与CFT（杨等人，2019年）这种最先进的跨模态目标检测方法相比，作者提出的方法在节省51.2% GPU内存的同时，实现了大约8%的准确度提升。

概而言之，作者总结以下主要贡献：

作者引入了一个关注不利天气条件下可见-红外目标检测的新任务，并开发了一个名为严重天气可见-红外数据集（SWVID）的新数据集，该数据集模拟现实世界条件。SWVID包含了对可见-红外图像和标签，涵盖了如雨、雾和雪等天气条件；
作者提出了一种新方法，带天气消除的跨模态融合曼巴（CFMW），用于不利天气条件下的多光谱目标检测；
作者引入了天气消除扩散模型（WRDM）和跨模态融合曼巴（CFM）模块，以同时解决图像去天气化和可见-红外目标检测任务；
大量实验表明，这种整合实现了最佳的任务迁移能力，为这两个任务带来了最先进的性能。

2. Related Work

在本节中，作者简要回顾了关于跨模态目标检测、状态空间模型和多天气图像恢复的先前相关研究。

跨模态目标检测 现有的跨模态目标检测方法可分为两类：特征级和像素级融合，通过特征融合方法和时机来进行区分。最近，基于卷积神经网络的双流目标检测模型在提高识别性能方面取得了很大进展（Chen等人，2019；Wang等人，2019；Wang等人，2019；Wang等人，2019；Wang等人，2019），而像素级融合方法也取得了良好的性能（Chen等人，2019；Wang等人，2019；Wang等人，2019）。其他采用诸如GAN等方法进行有效融合的工作也取得了良好结果（Wang等人，2019；Wang等人，2019；Wang等人，2019）。这些工作可以整合到如下游目标检测等任务中。传统的卷积神经网络具有有限的感受野，在使用卷积运算符时，信息只集成到局部区域，而 Transformer 的自注意力运算符可以学习长距离依赖（Wang等人，2019）。因此，提出了一种基于 Transformer 的名为Cross-Modality Fusion Transformer（CFT）（Yang等人，2019）的方法，并取得了最先进的检测性能。与这些工作不同，作者首先将Mamba引入跨模态目标检测中，通过门控机制学习长距离依赖，同时实现高准确度和低计算开销。

状态空间模型 状态空间模型的概念最初在S4模型（Shen等人，2017）中引入，提出了一种与传统卷积神经网络和 Transformer 相比能更有效建模全局信息的独特架构。基于S4，S5模型（Wang等人，2019）将复杂性降低到线性水平，而H3（Wang等人，2019）将其引入语言模型任务中。Mamba（Mamba，2019）引入了输入激活机制以增强状态空间模型，与同等规模的 Transformer 相比，实现了更高的推理速度和整体指标。随着Vision Mamba（Wang等人，2019）和Vnamba（Vnamba，2019）的引入，状态空间模型的应用已扩展到视觉任务中。目前，现有研究尚未考虑将状态空间模型有效地泛化到跨模态目标检测中。

多天气图像恢复 最近，一些尝试已经在一个单一的深度学习框架中统一了多个恢复任务，包括生成建模解决方案以恢复叠加噪声类型（Chen等人，2019），在未知测试时间恢复叠加噪声或天气损害，尤其是多天气图像退化（Chen等人，2019；Wang等人，2019；Wang等人，2019）。All in One（Wang等人，2019）采用多编码器和解码器架构统一了天气恢复方法。值得注意的是，基于扩散的条件生成模型在各种任务中显示出最先进的表现，例如带分类器引导的类条件数据合成（Chen等人，2019），图像超分辨率（Wang等人，2019），图像去模糊（Wang等人，2019）。针对一般线性逆图像恢复问题，提出了去噪扩散恢复模型（DDRM）（Dwork等人，2019），利用预训练的去噪扩散模型进行无监督后验采样。总的来说，到目前为止，扩散模型尚未被考虑在跨模态图像融合领域泛化到不利天气场景中。与现有工作不同，作者将多天气恢复扩展到跨模态融合领域。

3. Proposed Framework

Overview

如图2所示，CFMW包括两个主要阶段。在多天气图像恢复阶段，作者的目标是实现三种不利天气条件（雨、雪、雾）的图像恢复，并使用只有一个预训练权重的统一框架来实现。在跨模态融合阶段，作者旨在整合不同模态的独特特征。受到CFT（Yang等人，2019）的启发，为了展示作者提出的CFM融合模型的有效性，作者将YOLOv5的框架扩展到支持多光谱目标检测。作者在最后一个子节中介绍了为WRDM和CFM精心设计的损失函数和训练过程。

Weather Removal Diffusion Model (WRDM)

去噪扩散模型（Denoising, 1983; Wang et al., 2019）是一类生成模型，它们学习一个马尔可夫链，逐渐将高斯噪声分布转化为由模型训练的数据分布。最初的去噪扩散概率模型（DDPMs）(Shi et al., 2017) 的扩散过程（数据到噪声）和生成过程（噪声到数据）基于一个马尔可夫链过程，导致步骤繁多且耗时巨大。因此，提出了去噪扩散隐式模型（DDIMs）(Shi et al., 2017) 以加速采样，提供了一类更高效的迭代隐式概率模型。DDIMs 通过一类非马尔可夫扩散过程定义生成过程，这些过程与DDPMs具有相同的训练目标，但可以产生确定的生成过程，从而加快样本生成速度。在DDIMs中，隐式采样指的是以确定性的方式从模型的潜在空间生成样本。使用噪声估计网络进行隐式采样可以通过以下方式执行：

其中和表示在不同扩散时间步中的数据（），，，而可以优化为：，，.

条件扩散模型已展现出先进的图像条件数据合成与编辑能力（Shi等人，2017；Goodfellow等人，2014）。其核心思想是学习一个条件逆过程，而不改变扩散过程。作者提出的WRDM是一个条件扩散模型，在采样过程中加入参考图像（清晰图像），以指导重建图像与参考图像相似。如图3所示，作者引入了一个新参数，它表示天气退化的观测。将马尔可夫链定义为扩散过程，并逐渐加入高斯噪声，模拟数据样本的逐渐退化，直至达到时间点。作者基于WideResNet（He等人，2016）的U-Net架构来确定模型超参数。对于输入图像的条件反射，作者将 Patch 和连接起来，以获得六维输入图像通道。将逆过程条件化在上可以保持其与隐式采样的兼容性，因此作者可以将方程(1)扩展为：

采样过程从开始，沿着一条确定的逆路径向以忠实度进行。更多推导细节请参见补充材料。

作者提出的WRDM是一个基于 Patch 的条件扩散模型，引导逆采样过程在相邻 Patch 之间实现平滑。在训练过程中，作者随机在图像尺寸内为采样 Patch 位置。在任何给定的时间步下，作者根据图3反转采样每个像素在重叠 Patch 区域的平均估计噪声，这有效地控制了逆采样过程，确保所有相邻 Patch 具有更高的忠实度。

此外，WRDM可以被视为一个插件，嵌入到其他工作中，例如可见光与红外图像融合中，以消除多天气条件的影响，这在图5的实验中得到了证明。

Cross-modality Fusion Mamba (CFM)

跨模态融合曼巴（CFM）的目标是将先进的态空间模型（SSM）或曼巴（Mamba, 2017）引入到跨模态目标检测中。结构化的态空间序列模型（S4）和曼巴受到连续系统的启发，通过隐藏状态将一个一维函数或序列进行映射。这个系统使用作为演化参数，以及和作为投影参数，使得可以如下演化：

注意，S4和曼巴是连续系统的离散版本，包括一个时间尺度参数将连续参数转换为离散参数如下：

之后，方程（3）可以重写为：

图2. 跨模态融合曼巴（CFM）的框架。它有三个部分：一个天气消除扩散模型（WRDM），一个双流特征提取网络（作者的 Baseline ），以及三个跨模态融合曼巴（CFM）模块。表示逐元素加法，表示逐元素乘法，C1是1维卷积的简写。

最后，模型通过以下全局卷积计算输出：

其中是输入序列 x 的长度，是一个结构化的卷积核。

标准的Mamba设计用于一维序列。如Vision Mamba（Vim）所示，二维多光谱图像可以转换为扁平化的二维图像块，其中表示输入图像的大小，是通道数，是图像块的大小。同样，作者将线性投影到大小为的向量，并添加位置嵌入，如下所示：

其中是的第个路径，是可学习的投影矩阵。

以下是所提出CFM的更多细节。如引言部分所述，在不同的光照和天气条件下，RGB模态和热成像模态表现出不同的特征，这些特征是互补且冗余的。因此，作者旨在设计一个模块来抑制冗余特征并融合互补特征，以便在恶劣天气条件下有效地获取必要的跨模态线索进行目标检测。受到跨注意力机制[1]的概念启发，作者引入了一种新的跨模态Mamba模块来融合来自不同模态的特征。如图2所示，为了促进RGB和热成像模态之间的特征交互，作者使用了通道交换Mamba模块（CS）[12]，它融合了来自不同通道的信息并增强了跨模态的相关性。给定RGB特征和热成像特征，将的前半部分通道与的后半部分通道连接起来，并通过Mamba模块进行特征提取。得到的特征被加到上，创建了一个新的特征。同时，的前半部分与的后半部分连接起来，然后通过Mamba模块。得到的特征被加到上，创建了一个新的特征'。

随后，在特征融合过程中，作者将特征'和'投射到共享空间中，并使用门控机制以鼓励互补特征学习的同时抑制冗余特征。如图2所示，作者首先使用Norm模块对'和'中的每个标记序列进行归一化，这有助于提高模型的收敛速度和性能。然后将输入序列通过线性层并应用SiLu作为激活函数。和可以通过参数函数生成：

其中。之后，作者应用状态空间模型（SSM）：

图3：WRDM训练和推理过程的示意图。左侧是WRDM的框架。作者使用配对数据分布（），将其拆分为（）进行模型训练。右侧是基于 Patch 的扩散图像恢复流程的说明（这里以4个 Patch 为例）。

然后作者将门控操作应用于残差连接：

最后，作者成功地获得了融合的二维特征。

与CFT（Zhu等人，2017年）不同，作者的融合块在提高计算效率的同时继承了全局感受野和动态权重的组件。将作者CFM块中的状态空间模型（SSM）与CFT（Zhu等人，2017年）中的 Transformer 自注意力机制进行比较，两者都在自适应地提供全局上下文方面发挥着重要作用，但自注意力与序列长度成二次关系，而SSM与序列长度成线性关系（Zhu等人，2018年）。为了在处理长序列工作时实现更低的内存使用，CFM选择了与Mamba相同的重新计算方法。在SWVID和LLVID数据集上进行实验，其分辨率为，结果显示CFT需要GB的GPU内存，而CFM只需要GB，节省了GB，在相同配置下。

Loss Functions

作为两阶段预训练模型，作者精心设计了训练损失函数，以产生最小模糊度且与真实图像细节最接近的增强结果，并提取RGB和热成像模态之间的差异。

在训练WRDM时，这一阶段损失函数的目标是最大化数据对数似然。由于直接最大化这一目标非常具有挑战性，作者使用变分推理来近似这一目标。变分推理通过引入变分分布来近似真实后验分布，然后最小化这两个分布之间的差异。在这里作者定义，作者有：

其中第二项是和之间的Kullback-Leibler散度的期望值。

与该领域普遍的做法一致，总体损失函数 () 是边界框回归损失 ()、分类损失 () 和置信度损失 () 的总和。

关于CFMW的损失函数细节在补充材料中阐明。

4. Experiments

实验部分的开头。

Established SWVID benchmark

数据集。在动态环境中，可见图像的色彩范围受到环境干扰的影响而减弱，现有的融合方法由于在相应数据集下缺乏足够的训练，难以充分融合可见光与红外光谱。如图4所示，作者建立了基准数据集SWVID，它是从真实场景中收集的公共数据集（即LLVIP（Kumar等人，2017年）、M3FD（Zhu等人，2017年）、MSRS（Zhu等人，2017年））构建的。它包含了多种均匀分布的场景（白天、夜晚、雨天、雾天和雪天），通过结合不同场景模拟真实环境。此外，作者为受到恶劣天气条件影响的每个可见图像提供了相应的 GT 图像，用于图像融合和图像恢复网络的训练。如表1所示，与先前的可见光-红外数据集相比，SWVID是第一个考虑天气条件的数据集。具体来说，作者从公共的可见光-红外数据集中构建了以下数据集：

表1. SWVID基准与现有可见光-红外数据集的比较。表示可用，而表示不可用。

图4. 建立的SWVID基准概览。该数据集包括三种天气条件（即雨、雾和雪），两种场景（即白天和夜晚），总共提供张图像。

其中代表图像中的空间位置，，和表示将清晰图像映射到带有雨、雪和雾粒子效果的图像的函数，代表没有天气效果的清晰图像，和分别表示雨和雪的等价物，表示雨 Mask 图，表示雪粒子色差图。考虑到散射效应，表示从观察者在像素位置处的距离，是大气衰减系数，而是光亮度。

作者将SWVID分为训练集（张图像），验证集（张图像）和测试集（张图像），每个文件夹包含三部分：可见光-红外图像对以及相应的受天气影响的可见光图像。请注意，受天气影响的可见光图像包含三种天气条件，分为SWVID-snow，SWVID-rain 和 SWVID-foggy。在训练期间，作者使用图像对（受天气影响和 GT ）在第一阶段训练WRDM，然后使用图像对（ GT 和红外）以及相应的标签在第二阶段训练CFM。在验证和测试期间，作者直接使用图像对（受天气影响和红外），以验证和测试CFMW在实际条件下的性能。在进行比较实验评估其他网络时，作者也采用了同样的方式。

图5：多模态融合与目标检测可视化的白天和夜间场景示例，包括三种不利天气条件（雨、雾和雪）。作者将WRDM嵌入到两种最先进的可见光-红外融合方法中（即 CDDFuse [59] 和 DeFusion [25]），以减轻天气条件的不利影响。

评估指标。作者采用常规的峰值信噪比（PSNR）[15] 和结构相似性（SSIM）[47] 对 GT 和恢复图像之间的量化评估。PSNR 主要用于评估图像处理后失真的程度，而SSIM 更关注图像的结构信息和视觉质量。

在目标检测定量实验方面，作者引入了三种目标检测指标：平均精度均值（mAP、mAP50 和 mAP75）以评估目标检测模型的准确性。有关更多计算细节，请参阅补充材料。

Implantation Details

对于WRDM，作者在特定天气条件以及多天气条件下的图像恢复设置中都进行了实验。作者将特定天气条件下的恢复模型分别表示为去雨、去雪和去雾，以验证在特定天气条件下通用WRDM模型的性能。作者训练了所有模型的大小为的 Patch 版本。作者使用NVIDIA RTX 4090显卡进行所有实验。在比较的所有模型训练中，作者都使用Adam作为优化器。在训练过程中，作者训练了WRDM 次迭代。至于CFM，作者没有进行针对特定任务的参数调整或网络结构的修改。为了获得更好的性能，作者选择了YOLOv5模型的公开权重初始化（yolov5s.pt），该权重在COCO数据集（Lin等人，2014年）上进行预训练。

Comparative Experiments

在本节中，作者分别与几种最先进的图像去雪、去雨和去雾方法以及跨模态目标检测方法进行比较。在表2中，作者进行了与以下图像去雪方法（如SPANet (Yang et al., 2017)，DDMSNet (Chen et al., 2017)，DesnowNet (Chen et al., 2017)，RESCAN (Liu et al., 2017)）的比较，去雨（如pix2pix (Liu et al., 2017)，CycleGAN (Liu et al., 2017)，PCNet (Liu et al., 2017)，MPRNet (Wang et al., 2017)），以及去雾（如pix2pix (Liu et al., 2017)，DuRN (Liu et al., 2017)，Attentive-GAN (Liu et al., 2017)，IDT (Liu et al., 2017)）方法的比较，同时还与两种最先进的多天气图像恢复方法：All in One (Huang et al., 2016)和TransWeather (Liu et al., 2017)进行了比较。在表3和表4中，为了证明CFMW的持续改进，作者与几种基础的单一模态目标检测方法（例如，Faster R-CNN (Ren et al., 2015)，SDD (Ren et al., 2015)，YOLOv3 (Liu et al., 2017)，YOLOv5 (Liu et al., 2017)，YOLOv7 (Liu et al., 2017)）以及几种多模态目标检测方法（例如，作者的 Baseline ，标准的双流YOLOv5目标检测网络，以及CFT (Liu et al., 2017)）进行了比较。

表4. 在LLVIP (Liu et al., 2017)数据集上与其他网络的性能比较。

表2. 在PSNR和SSIM（越高越好）方面与最先进的图像去雨、去雾和去雪方法的定量比较。为了公平起见，作者统一使用建立的SWVID数据集的可见光部分作为评估数据集。

表3. 在SWVID-snow数据集上与其他网络的性能比较。

图像去雪效果比较。 如表2所示，作者使用SWVID数据集的单一RGB模态（包括雨、雾和霾等天气条件）作为比较数据集，以衡量不同模型在不同天气条件下的性能。表格顶部展示了特定天气图像恢复的结果，作者展示了的采样时间步。对于图像去雨、图像去雾和图像去雪任务，所提出的方法在这些任务上一致取得了最佳结果（在SWVID-rain上为36.78/0.9464，SWVID-foggy上为36.53/0.9795，在SWVID-snow上为42.23/0.9821）。特别是在图像去雨任务中，与当前最先进的方法（MPR-Net [53]）相比，性能提高了大约24%。对于多天气图像恢复，尽管由于任务复杂性的原因，结果不如特定天气模型好，但与All in One [23] 和 TransWeather [42]相比，所提出的方法也取得了最佳结果（在SWVID-rain上为35.02/0.9322，SWVID-foggy上为35.88/0.9602，在SWVID-snow上为40.98/0.9578），与TransWeather [42]相比性能提高了大约17%，与All in One [23]相比性能提高了大约25%。

跨模态目标检测比较。如表3和表4所示，作者使用LLVIP [18] 和 SWVID-snow 作为比较数据集。与 SWVID-rain 和 SWVID-foggy 相比，这两个数据集中行人的大小更符合一般目标检测标准。这两个数据集中行人重叠的复杂情况更多，这可以更好地衡量目标检测网络的准确性。表格顶部展示了单模态网络的检测结果，每个网络使用 RGB 模态或热成像模态进行检测。表格底部显示了多模态网络的检测结果，包括作者的 Baseline 模型 CFT [34] 和所提出的 CFMW。根据表3，可以观察到，通过集成 WRDM 和 CFM，CFMW 在每个指标（mAP50:2.3↑, mAP75:4.3↑, mAP:3.0↑）上相对于每种指标上现有的最佳网络在 SWVID-snow 上都取得了压倒性的性能提升，这表明在恶劣天气条件下它具有更好的适应性。同时，如表4所示，CFMW 可以在较低的计算消耗下实现更准确的检测（mAP50:98.8, mAP75:77.2, mAP:64.8），这表明 CFWM 的普遍性。

Ablation Study

在本节中，作者分析了CFMW的有效性。首先通过详细的消融实验以参数形式验证了WRDM和CFM模块在性能改进中的重要性，然后从视觉上展示了WRDM在跨模态融合和目标检测任务中的作用，以突出其作为天气恢复插件的通用性。

消融实验 为了理解作者方法中每个组件的影响，作者进行了一系列全面的消融实验。如表5所示，作者将CFM和WRDM与其他经典检测器结合使用，例如YOLOv7 [45]，YOLOv5 [20]和Faster R-CNN [36]，以展示作者CFMW的普遍有效性。在复杂天气条件下，所提出的CFMW改进了一阶段或两阶段检测器进行跨模态目标检测的性能。具体来说，CFM在mAP50上实现了11.3%的提升，在mAP75上实现了81.6%的提升，在mAP（基于YOLOv5 [20]）上实现了78.3%的提升。在加入WRDM后，作者在mAP50上实现了12.1%的提升，在mAP75上实现了88.2%的提升，在mAP上实现了80.4%的提升。CFM和WRDM为所有考虑的评价指标提供了不可忽视的提升。

视觉解释 为了直观地验证WRDM作为插件的适用性，作者从视觉上展示了WRDM在可见光-红外图像融合和目标检测领域的应用场景。如图5所示，作者与可见光-红外图像融合方法（例如CDDFuse [59]，DeFusion [25]）进行了比较。从图中可以看出，与原始图像相比，使用WRDM前后两种方法的图像融合效果相差很大，经过去天气处理后，可以成功检测到图像远端更多的人。在跨模态目标检测中，丰富的图像细节可以为特征提取和融合提供极大的帮助，直接融合而不去除天气影响会导致图像细节的损失和干扰。

5. Conclusion

在本工作中，作者提出了一种在恶劣天气条件下进行可见光-红外目标检测的新方法，即严重天气可见光-红外数据集（SWVID）。作者为在真实和具有挑战性的环境中训练和评估模型提供了宝贵资源。具有天气消除的跨模态融合Mamba（CFMW）模型，在提高检测准确性的同时，也能很好地管理计算效率。作者的大量实验表明，CFMW在多天气图像恢复和跨模态目标检测两项任务上都超过了现有基准，达到了最先进水平。这项工作为在恶劣天气下的跨模态目标检测开辟了新的可能性。

表5. 在SWVID-snow数据集上进行消融实验。为了展示作者CFMW的普遍有效性，作者进一步将WRDM和CFM模块与其他经典检测器（例如，YOLOv7, YOLOv5, Faster R-CNN）结合。

Appendix A Derivation of Denoising Diffusion Models

前向过程是一个固定的马尔可夫链，通过根据方差计划注入高斯噪声，在个时间步中腐蚀数据，可以用以下公式表达：

由联合分布定义的反向过程是一个具有学习到的的高斯去噪转换的马尔可夫链，从标准正态先验开始，可以用以下公式表达：

反向过程由一个估计和的神经网络参数化。

去噪扩散隐式模型提供了一种加速预训练扩散模型的确定性采样的新方法，该方法可以生成一致且质量更高的图像样本。接下来的隐式采样利用了广义非马尔可夫前向过程公式：

对于：

其中是一个实数。作者可以通过数学归纳法证明对于所有的：

因此，作者可以将(24)中的分布根据其标准差的一个特定选择重写为：

其中。它们都具有与数据和潜在变量相同的维度。

Appendix B More Details of Loss Functions

在训练WRDM时，特别是对于每个时间步，作者有：

其中第一项是在变分分布下的期望值，第二项是与之间的Kullback-Leibler散度的期望值。Kullback-Leibler散度衡量了两个概率分布之间的差异。将所有时间步的变分界累加起来，作者得到了整个扩散过程的变分界：

然后作者展示了关于，，，和的更多计算细节：

其中广义交并比（GIoU）被用作预测回归损失。和分别表示预测期间图像网格的数量和预测框的数量。和分别表示真实样本属于类别 c 的概率和网络预测样本为类别 c 的概率。表示第个网格的第个预测框是否为正样本，表示第个网格的第个预测框是否为负样本。

Appendix C More Details of Metrics Calculation

PSNR 可以按如下方式计算：

其中和分别代表图像的高度和宽度，是每个像素的比特数（通常取8），和分别代表相应坐标下的像素值。

SSIM 可以按如下方式计算：

其中衡量亮度，衡量对比度，衡量结构，和分别表示均值和标准差。

mAP, mAP50 和 mAP75 可以按如下方式计算：

mAP50 在 IoU=0.50 的条件下计算所有类别所有 AP 值的平均值，而 mAP75 在 IoU=0.75 的条件下进行计算，同理。

参考

[1].CFMW:Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频