TPAMI 2024｜DeepM2CDL：基于层级式多尺度卷积字典的多模态图像修复与融合网络

最新推荐文章于 2024-11-30 15:49:39 发布

OpenCV中文网公众号

最新推荐文章于 2024-11-30 15:49:39 发布

阅读量951

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzODkxNzQzMw==&mid=2247494208&idx=1&sn=84b4d0d8e9925d5eb9841a27e8664230&chksm=fb8b101da3d3370c22b0a4332afaefc98f2f465594e46380f02f93e53e5ab34771bb33f24718&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

本文为粉丝投稿，原文链接：https://zhuanlan.zhihu.com/p/701844704。

本文介绍了北京航空航天大学徐迈教授课题组最新发表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2024)上的工作“DeepM2CDL: Deep Multi-scale Multi-modal Convolutional Dictionary Learning Network”。

该工作瞄准跨模态图像间复杂的信息耦合特性，提出了一个基于层级式多尺度可调节字典学习模型的全局主动式可解释神经网络DeepM2CDL。该可解释神经网络为多模态图像复原与融合任务提供了通用的多尺度字典学习框架，在具有良好的网络可解释性的同时，在多模态图像超分辨、去噪、多曝光融合以及多焦点融合等多个任务中取得了卓越的性能。

论文地址：https://ieeexplore.ieee.org/abstract/document/10323520/
代码链接：https://github.com/JingyiXu404/TPAMI-DeepM2CDL

欢迎引用与评价：

❝
@article{deng2024deepm,
title={DeepM2CDL: Deep Multi-scale Multi-modal Convolutional Dictionary Learning Network},
author={Deng, Xin and Xu, Jingyi and Gao, Fangyuan and Sun, Xiancheng and Xu, Mai},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
year={2024},
publisher={IEEE}
}

论文简介

针对多模态图像处理，由于模态间复杂的依赖关系，网络可解释性至关重要。近年来，可解释网络的热门研究方向是通过展开策略将字典学习融入深度学习。然而，现有多模态字典学习模型多是单层级、单尺度的，极大限制了对多模态图像的表征能力。在本文中，我们提出了一种面向多模态图像的层级式多尺度卷积字典学习（M2CDL）模型，该模型以多层策略执行，以“由粗到细”的方式关联各个图像模态的卷积字典和稀疏特征。在此基础上，我们对M2CDL模型进行迭代展开，提出了一个统一的深度网络框架 DeepM2CDL，可同时实现多模态图像修复（MIR）和多模态图像融合（MIF）两种任务，在多个数据集取得了优异的性能。

创新点

由于不同图像模态之间存在复杂的关系，在构建网络时融入跨模态字典学习算法对于多模态图像处理任务非常有效。然而，现有基于字典学习的多模态图像处理网络存在以下缺点：

第一，稀疏先验通常被手动设置为L1范数，限制了算法的灵活性；

第二，对不同的输入使用相同的字典，忽略了更重要的字典学习过程，没有完全利用传统字典学习方法的优势；

第三，采用较为简单的单层级、单尺度结构，从而限制了模型的表征能力。

针对上述问题，该工作构建了更契合传统字典学习机理的多尺度多模态卷积字典学习（M2CDL）模型，并设计了与该模型对应的DeepM2CDL网络，以充分利用多模态图像间依赖关系进行跨模态信息提取和交互。下表直观地对比了我们所提出的网络相较于其他前沿基于字典学习的多模态图像处理网络的优势：

网络框架

下图所示为我们提出的DeepM2CDL的网络框架。针对多模态图像修复（Multi-modal Image Restoration，MIR）与多模态图像融合（Multi-modal Image Fusion，MIF）两类任务，我们设计了一个通用的多层级框架，逐步实现多模态图像的修复与融合。

其中每个MIRM（MIFM）模块由3个子模块组成：MDLBx模块，MDLBy模块和RB（FB）模块。其中，MDLBx和MDLBy用于获取表征各模态的稀疏系数以及对应的卷积字典；由于多模态图像修复和融合两种任务最终重构目标不同，我们分别针对修复和融合任务设计RB和FB模块，以实现稀疏系数的融合、卷积字典的更新以及目标图像的重建。

接下来我们针对多模态图像修复和融合两类任务，介绍多尺度卷积字典学习模型M2CDL的构建过程。

①面向多模态图像的层级式多尺度字典学习模型

②针对多模态图像修复任务的建模过程

③针对多模态图像融合任务的建模过程

实验与结果分析

① 闪光图像指导非闪光图像去噪（Flash Guided Non-Flash Image Denoising）

针对闪光图像指导非闪光图像去噪任务，我们在Aksoy数据集上随机选取12张作为测试图像，400张作为训练图像，并采用Y-PSNR作为评价指标。实验结果表明我们的网络在这三种不同的噪声等级上较其他多模态去噪对比算法有平均0.95dB PSNR的提升；通过对比去噪输出主观图，证明我们的算法相较于其他SOTA算法能够恢复出更清晰的边缘和更充足的细节。

② 彩色图像指导深度图像超分辨（RGB Guided Depth Image Super Resolution）

针对彩色图像指导深度图像超分辨任务，我们使用DPDN数据集作为训练数据集，而从Middlebury和Sintel数据集中选择7组图像作为测试图像，并采用RMSE和SSIM作为超分辨效果的评价指标。在深度图像指导RGB图像进行4倍超分辨任务中，我们所提出的网络不仅获得了最高的平均SSIM值，并且较对比算法提升15.4%的RMSE指标；通过对比超分辨输出主观图，证明我们的算法相较于其他SOTA算法恢复出前景和背景区域中边缘都更清晰的深度图像。

③ 多焦点图像融合（Multi-Focus Image Fusion）

针对多焦点图像融合任务，我们使用通用数据集作为DIV2K作为原始图像构建训练集，并选择Lytro数据集作为测试集，为了更全面的验证网络性能，我们选用SD、AG、EI、VIF四个评价指标来进行定量比较。如下表所示在多焦点图像融合任务中，该工作在4个评价指标上均超过SOTA对比算法。特别是在客观评价指标EI上提升3.4%，主观评价指标VIF提升2.2%。

为了进行更全面的主观效果对比，我们在下图中可视化了不同融合算法所获取的多焦点融合结果差异图。差异图表示融合图像与远焦点源图像之间的差异。理想情况下，差异图中的背景区域应该全为零，因为背景区域在融合图像和远焦点图像中应该是相同的。由下图我们可以看出，我们的背景是所有方法中最干净的，而其他的对比方法的背景比较混乱。除此之外对于前景区域，我们的方法提供了非常干净和清晰的边缘和图像细节。这表明我们的方法能够在融合过程中清楚地区分近焦点和远焦点区域，并避免这两个部分的重复叠加。

④ 多曝光图像融合（Multi-Exposure Image Fusion）

针对多曝光图像融合任务，我们使用SICE数据集作为训练数据集，并选择SICE、MEFB、PQA-MEF数据集中的八十组图像作为测试集，选用FMI、MEF-SSIM、PSNR、QNCIE四个评价指标来进行定量比较，如下表所示。特别的，DeepM2CDL相较于第二名的算法在MEF-SSIM指标上提升6.8%；除此之外，该网络相较于其他算法能生成色彩饱和度高、图像细节丰富的图像，并且图像在视觉上看起来很漂亮。

⑤ DeepM2CDL的中间特征可视化

该工作通过可视化中间层学习的字典和稀疏系数，验证了网络与模型相符的可解释性，如下图所示。以多模态图像超分辨任务为例，从低分辨率深度图像中提取的特征边缘模糊，许多结构细节丢失。相比之下，从 RGB 图像中提取的特征边缘清晰，纹理细节充足。在我们的DeepM2CDL方法中，通过RB块将这些特征组合起来后，就能得到一个边缘清晰、结构完整的联合特征。换句话说，下图印证了RGB 图像的稀疏特征有助于锐化和完善低分辨率深度图像的稀疏特征，从而有助于还原高分辨率深度图像。所有这些可视化结果表明，我们的网络具有良好的可解释性。

总结与展望

本文针对多模态图像修复和融合任务，提出了一种新颖的可解释网络，即DeepM2CDL网络。该网络的设计是将多尺度多模态字典学习融入深度学习，使其既保留了深度学习的高效性，又具备字典学习的可解释性。与其他网络不同，我们通过网络同时学习字典和稀疏前验，对多模态图像内容更具适应性。通过对各种任务的实验，包括闪光灯引导的非闪光灯图像去噪、RGB引导的深度图像超分辨率、多焦点和多曝光图像融合，评估了所提出的网络的有效性。此外，我们还对从网络中学习到的中间稀疏特征和字典进行了可视化，这表明我们的网络具有良好的可解释性。

在未来，探索卷积字典学习在弱监督、自监督或无监督多模态图像处理中的潜力将会是很有趣的研究方向。除此之外，我们的DeepM2CDL可以从几个方面得到增强。例如，可以采用注意机制来探索不同模态的全局信息。此外，当前的工作仅侧重于图像处理，通过跨帧和跨模态字典学习，设计用于多模态视频处理的可解释网络也是未来可以研究的一项工作。