全面增强检测&分割任务！DeFusion++：万能图像融合，互补特征表示

最新推荐文章于 2025-07-16 17:15:38 发布

转载最新推荐文章于 2025-07-16 17:15:38 发布 · 372 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247706738&idx=4&sn=62c3ff5823f7971952c2b9da3bbf3959&chksm=fae993bbd6c715cc55425f284f2a7a3ee0a2e62ba46d4eafcc11ed54f269b50becc7625d5172&scene=126&sessionid=0

文章标签：

#计算机视觉 #人工智能

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond

作者：Pengwei Liang, Junjun Jiang, Qing Ma, Xianming Liu, Jiayi Ma

机构：Harbin Institute of Technology、Wuhan University

原文链接：https://arxiv.org/abs/2410.12274

1. 摘要

除了从单幅降质图像恢复图像之外，图像融合作为从多幅图像生成一幅高质量图像的替代解决方案而闻名。图像融合的本质是整合源图像的互补信息。现有的融合方法难以跨各种任务进行概括，并且通常需要劳动密集型的设计，其中由于每个融合任务的不同要求，很难从源图像中识别和提取有用的信息。此外，这些方法为不同的下游应用开发了高度专业化的特征，阻碍了对新的和多样化的下游任务的适应。为了解决这些限制，我们引入了DeFusion++这一新的框架，它利用自我监督学习(SSL)来增强不同图像融合任务的特征表示的通用性。DeFusion++以自我监督的方式从大规模数据中捕获图像融合任务友好的表示，克服了有限融合数据集的限制。具体来说，我们介绍了两个创新的借口任务:共同和独特的分解(CUD)和掩盖特征建模(MFM)。CUD将源图像分解为抽象的共同和独特的组成部分，而MFM将这些组成部分细化为鲁棒的融合特征。这些任务的联合训练使DeFusion++能够产生适应性强的表示，能够有效地从各种源图像中提取有用的信息，而不管融合任务如何。所得到的融合表示也高度适用于广泛的下游任务，包括图像分割和对象检测。DeFusion++通过生成通用的融合表示脱颖而出，可以提高图像融合的质量和下游高级视觉任务的效率，并通过优雅的融合框架简化过程。

2. 引言

图像融合是图像处理和计算机视觉中的一项基本技术，它将多幅图像合并成一幅融合图像，同时保留输入图像中最理想的特征。与单个源图像相比，融合后的图像通常在质量上有所提升，不确定性降低，并且对场景的表示更为详细。多年来，图像融合的重要性显著增加，这得益于其在遥感、医学成像、监控和虚拟现实等多个领域的广泛应用。近年来，图像融合技术取得了显著进展，引起了广泛关注。基于深度学习的开创性工作致力于解决特定的融合任务，如红外与可见光图像融合（IVF）、医学图像融合、多聚焦图像融合（MFF）和多曝光图像融合（MEF）。设计针对特定任务的融合方法可能非常耗时。统一融合方法在一个统一的模型内解决各种融合问题，使这些任务能够相互促进。统一融合方法不仅产生视觉效果良好的结果，还显示出在不同融合任务之间泛化的潜力。

然而，这些统一模型在图像融合中面临着重大挑战，特别是在从多个源图像中识别和提炼最有用的信息以生成一幅融合图像方面。图像融合的主要目标是整合来自不同源图像的互补信息。但是，这种互补信息的性质在不同融合任务中差异显著。例如，在红外与可见光图像融合中，红外图像的像素强度和可见光图像的梯度信息特别有价值。在多聚焦图像融合中，聚焦区域至关重要，而在多曝光图像融合中，保留丰富的纹理信息至关重要。为了解决这些不同的需求，一些统一融合模型采用复杂的损失函数和定制的融合规则来协调源图像的特征，如图1(a)所示。然而，随着成像设备的进步，设计这种定制的损失函数和融合规则变得越来越具有挑战性。一个明显的例子是，最新的高质量红外图像也可能呈现出丰富的纹理，这与我们之前的知识相悖。因此，迫切需要一种简单有效的方法来从源图像中提取有用信息，以克服这些挑战。

此外，图像融合任务本身带有两个固有目标。第一个是视觉感知。具体来说，在多曝光图像融合的上下文中，由于曝光不足和曝光过度，低动态范围图像往往无法捕获场景信息的全谱。将这些低动态范围图像融合成高动态范围图像可以显著提升视觉质量，这使得该技术对于高质量电影制作等应用至关重要。第二个是支持下游视觉任务，如目标检测和图像分割。例如，将可见光和红外图像融合可以提高在不同光照条件下分割的准确性。在这种情况下，主要目标是生成分割图，而融合图像仅作为辅助输出。然而，传统融合方法往往没有充分关注这两个方面。为了弥补这一差距，最近在红外与可见光图像融合方面的工作将针对特定下游任务的定制损失函数纳入融合算法中，如图1(b)所示。在这些工作中，融合过程分为两个阶段。首先，网络专门针对图像融合进行优化。随后，它转向微调网络以适应下游任务。他们期望这些阶段能够相互支持和增强，使网络不仅能够生成视觉效果更好的融合图像，还能在特定的高级视觉任务上提高性能。然而，由于这些方法是为特定任务定制的，因此所学特征可能过于专门化，无法适应其他类型的任务。推荐课程：工业视觉检测如何检测低对比度缺陷？

为了应对这些挑战，我们引入了一个开创性的图像融合框架，该框架充分利用了自监督学习（SSL）的强大功能。我们的框架从大规模数据中探索特征表示能力，并不受图像融合任务中配对数据集数量的限制。通过利用专注于学习数据内在结构的自监督学习，该框架能够提取更具泛化能力的特征，在跨域和跨任务适应性方面表现出卓越的性能。它引入了与融合相关的预训练任务，从而避免了为每种类型的融合任务设计复杂的损失函数和定制化的融合规则。此外，它产生了通用的融合特征，在各种下游任务中均表现出色。具体来说，我们推出了DeFusion++，这是一个自监督学习框架，专注于生成强大的融合特征，这些特征可以轻松转换为融合图像或用于支持下游任务。

我们通过断言源图像可以有效分解为独特和共同组件，并随后通过系统地组合这些组件来合成目标融合图像，从而重新定义了图像融合的核心概念。基于这一概念，我们开发了两个新颖的预训练任务：共同和独特分解（CUD）和掩码特征建模（MFM），如图1(c)所示。CUD专门用于分解源图像（包括来自多模态源的图像）为其共同和独特组件。MFM则将抽象的共同和独特组件精炼为更有用和有效的融合特征。通过联合训练CUD和MFM，DeFusion++生成了抽象的副产品，即共同和独特组件，以及目标融合特征。在此过程中，CUD避免了对复杂、任务特定的损失函数和手动调整融合规则的需求。同时，MFM显著提高了融合网络中特征表示的鲁棒性和有效性，使其能够支持更广泛的下游视觉任务，包括融合图像的生成。

3. 效果展示

图(a)和(b)分别概述了传统的图像融合方法。图(c)代表我们提出的DeFusion++流程，该流程支持广泛的图像融合和下游任务。在我们的方法中，我们提出了两个自监督的预训练任务：多模态公共与独特分解（CUD）和掩码特征建模（MFM）。

在MEFB数据集上，针对四对过曝与欠曝图像，将我们提出的DeFusion++与七种多曝光融合（MEF）方法进行了定性比较。

4. 主要贡献

我们工作的特点和贡献总结如下：

• 我们推出了DeFusion++，这是一种从图像分解的角度重新审视图像融合问题的自监督融合方法。我们的方法的核心是一个新颖的预训练任务，即共同和独特分解（CUD）。利用CUD，DeFusion++可以支持各种图像融合任务，无需复杂的损失函数和定制化的融合规则。

• 我们还设计了一个自监督预训练任务，即掩码特征建模（MFM），它将分解的表示精炼为鲁棒、融合的表示。这些融合表示能够支持各种下游任务，包括图像融合、图像分割和对象检测。

• 据我们所知，引入的框架是首个产生可适应的融合表示，这些表示能够同时有效地支持广泛的图像融合和下游任务。它成功满足了视觉感知和应用特定需求的要求。

• 我们将统一的融合网络应用于多样化的数据集，并在三个融合任务上进行了测试，包括红外-可见光融合、多焦点融合和多曝光融合。此外，我们还对图像分割和对象检测两个下游任务对提出的方法进行了评估。定性和定量结果验证了DeFusion++的有效性。

这项工作的初步版本以DeFusion的形式出现。当前版本在三个方面扩展了原始贡献。首先，我们完善了CUD任务，并引入了多模态CUD（MCUD），它更适合处理多模态源图像。其次，我们开发了一个新颖的预训练任务，即MFM，旨在增强融合特征的表示能力。第三，我们增强的自监督框架不仅生成融合图像，还产生稳健的融合特征表示，适用于图像分割和对象检测这两个典型的下游任务。

5. 方法

我们提出了一种方法，通过利用自监督学习框架来促进图像融合，包括多模态场景。该框架结合了两个关键的预训练任务，即公共与独特分解（CUD）和掩码特征建模（MFM），以生成良好的特征表示，同时支持图像级视觉融合和下游高级任务。在本节中，我们将详细阐述这些预训练任务，并展示如何有效地将训练好的模型应用于一系列任务，包括图像融合以及相关的下游任务，如多模态图像分割和对象检测。

提出的框架旨在从源图像I1和I2中推导出最有效的特征表示，记为fx。该表示可以轻松地转换为融合图像或用于下游任务，如分割和对象检测。如图2所示，该框架包括两个主要的预训练任务：公共与独特分解（CUD）和掩码特征建模（MFM）。CUD将表示划分为三个组成部分：f1u和f2u（代表每个输入的独特特征），以及fc（捕获所有输入中的共同特征）。CUD通过两个定制的子任务（即公共特征提取和独特特征提取）特别适用于多模态图像和多视图。在分解之后，MFM处理这些组件（f1u, f2u, fc），以增强和细化特征，形成更有力的表示fx。丰富的特征对于生成高质量的融合图像或详细的分割图至关重要。

遵循传统的自监督框架，CUD任务利用未标记的图像数据集D来培养一个强大的特征表示网络，如图3所示。D中的每张图像x，记为x ∈ RH×W×3，通过一系列随机数据增强（通过一组预定义的图像变换，称为Aug）进行变换。这些增强将原始图像转换为扭曲视图xi。然后，一个交叉注意力网络处理这些视图，任务是捕获对于有效图像融合至关重要的公共和独特特征表示。

6. 实验结果

7. 总结 & 未来工作

在本研究中，我们提出了一种名为DeFusion++的新型自监督图像融合框架，该框架重新定义了传统的图像融合方法。DeFusion++策略性地将图像分解为独特成分和公共成分，通过两项创新的预训练任务——公共与独特分解（CUD）和掩码特征建模（MFM），简化了融合过程，并提高了输出结果的实用性和鲁棒性。通过对红外-可见光融合、多聚焦融合和多曝光融合等多种任务进行严格评估，DeFusion++不仅提升了融合图像的美学质量，还提高了它们在图像分割和对象检测等关键下游应用中的有效性。在三个数据集上的性能评估表明，DeFusion++在适应性和效率方面超越了当前方法。DeFusion++能够生成适应性强的融合表示，展现了其作为需要准确且全面视觉信息的应用的基础技术的潜力。DeFusion++有望推动图像处理和人工智能领域的创新，为该领域树立了新的基准，并拓展了图像融合应用的范围。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。