RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion

最新推荐文章于 2025-03-17 09:30:49 发布

保持客气哈

最新推荐文章于 2025-03-17 09:30:49 发布

阅读量2.4k

点赞数 9

分类专栏： ImageFusion 文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_47005029/article/details/131763013

版权

1.Abstract

在这篇论文中，我们提出了一种新颖的方法，以实现多模态图像的配准和融合，该方法在一个相互强化的框架中被称为RFNet。我们以粗到精的方式处理配准过程。首次，我们利用图像融合的反馈来提高配准的准确性，而不是将它们视为两个独立的问题。精确配准的结果还改善了融合性能。具体而言，对于图像配准，我们解决了定义适用于多模态图像和促进网络收敛的配准度量的瓶颈问题。这些度量分别基于粗阶段的图像平移和精阶段的图像融合来定义。通过设计的度量和基于可变形卷积的网络来促进收敛。对于图像融合，我们注重纹理保护，这不仅增加了融合结果的信息量和质量，还改善了融合结果的反馈。我们在具有大的全局视差、局部不对齐和对齐图像的多模态图像上评估了所提出的方法，以验证配准和融合的性能。这些情况下的结果证明了我们方法的有效性。

2.Introduction

由于多模态图像来自不同的设备/传感器，它们之间的位置、角度等差异不可避免地导致视差。然而，几乎所有的融合方法都没有考虑到这些视差。它们要求在融合之前进行准确的配准，如图1(a)所示。当配准和融合作为两个独立的问题时，现有的融合方法只能“容忍”而不是“解决”预配准对齐问题。

同时，在现有的研究中，图像融合是配准的下游任务，无法提供反馈以提高配准的准确性。然而，考虑到融合图像的特点，图像融合反过来可以消除对齐问题。

首先，融合图像整合了两个模态的信息。当将融合图像与任一源图像对齐时，减轻的模态差异降低了配准的难度。
其次，融合图像中的未对齐问题无疑会导致更多但重复的显著结构，即密集的梯度。相比之下，准确的配准鼓励梯度的稀疏性。因此，融合结果的梯度稀疏性可以作为一种准则，以反馈的方式改善配准准确性，而不会丢失源图像中的场景信息。
第三，融合图像保留了单个图像中明显的显著结构，并在融合过程中舍弃了一些多余和无用的信息。这减少了多余信息对图像配准的负面影响。当图像融合有助于消除对齐问题时，更准确对齐的数据又进一步促进了融合结果。因此，这两个任务可以相互加强，如图1(b)所示。

提出的框架如图1(b)所示。配准过程采用粗到精的方法进行处理。粗阶段通过基于图像平移的评估度量来修正全局对齐问题。粗配准结果有助于生成有意义但粗糙的融合图像。图像融合和精确的配准在一个单一的网络中进行整合。然后，为了纠正局部对齐问题，我们依赖融合图像的特点来优化网络中与变形相关的部分。最后，网络生成精确配准和融合的图像。

RFNet的主要贡献总结如下：

我们在本文中相互强化了多模态图像的配准和融合问题。这是第一次利用图像融合通过深度神经网络促进多模态图像的配准准确性。
我们专注于设计约束以优化多模态配准性能。在粗阶段，我们采用图像平移来构建一个基于图像级的评估度量。我们提出了改进的网络架构，以帮助促进网络收敛。在精阶段，度量基于融合结果进行设计。
考虑到图像融合中的纹理保留，我们采用了梯度通道注意机制来自适应调整特征的通道贡献。此外，我们设计了一个带有偏置的梯度损失。网络架构和损失函数都基于纹理丰富性。

🤔️：怎样理解配准鼓励梯度的稀疏性？

答：当图像对齐准确时，相似的特征将在融合图像中的相同位置对齐，这会导致梯度的稀疏性。在对齐的区域，相似的像素值在空间上是连续变化的，而不是突变。这种连续变化会导致图像中的梯度值相对较小，因为相邻像素之间的差异较小。因此，融合图像中的梯度将更加稀疏，即梯度值较少且较小。

相反，当图像对齐不准确时，相似的特征可能没有正确对齐，导致不连续的像素值变化。在融合图像中，这些不连续的变化会导致较大的梯度值，因为相邻像素之间的差异较大。这会使梯度变得更加密集，即梯度值较多且较大。

3.Related works

多模态图像配准。传统的配准方法包括基于变换和基于测量的方法。

基于变换的方法将图像转换到一个共同的空间以展现更好的一致性。它们通过手动分析多模态特征并设计约束来强制一致性。然而，这些方法中的优化是棘手的。
基于测量的方法旨在测量相似性，对模态变化的敏感性较低。代表性的方法包括互信息（MI），区域互信息等，这些方法计算复杂且不适合梯度下降。
最近，提出了基于深度学习的方法。例如，Wang等人使用网络创建模态无关的特征，但仍存在稀疏性的缺点。与我们的工作最接近的是，Arar等人学习了一种跨模态的转换。然而，变换和配准网络的协同训练增加了优化配准网络的难度。在我们的工作中，我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度。此外，与现有的配准网络相比，我们在网络中采用了可变形卷积，因为可变形卷积可以处理未配准图像中的形变，从而提高配准的准确性和鲁棒性。与我们的工作最相关的是，SIRF证实，如果正确联合配准和融合确实可以改善结果。然而，这项工作是在传统的矢量全变差模型中实现的，并且针对具有严格局部不对齐的遥感图像设计的。

多模态图像融合。现有的融合方法针对已对齐的图像而不考虑对齐问题。传统方法包括六种类别：基于多尺度变换、稀疏表示、子空间、显著性、混合方法和其他方法。它们致力于手动设计分解方式和融合策略，而详细和多样化的设计使它们变得越来越复杂。为了解决这个问题，一些基于深度学习的方法被提出。其中一些方法不关注纹理保留，一些生成对抗网络方法会产生虚假和模糊的细节。即使一些方法关注纹理，它们是根据图像模态而不是特定区域的实际纹理来保留纹理。在这项工作中，我们采用了基于梯度的注意机制和带有偏差的梯度损失来增强纹理保留。此外，该网络融合了变形，从而可以基于保留的纹理进行错位校正。

🤔️:为什么可变形卷积起到作用？

答：在图像配准任务中，未配准的图像可能存在不同的形变，如旋转、缩放、拉伸等。为了准确地将这些未配准的图像进行配准，传统的卷积操作可能无法充分考虑到图像中的形变信息。而可变形卷积则具有一定的变形能力，能够根据图像内容自适应地调整卷积核的采样位置，以更好地适应图像中的形变

4.Proposed Method

我们设计了一个无监督网络来实现多模态图像配准和融合的相互增强，称为RFNet。整体流程如图2所示，包括两个主要部分。首先，粗略配准模块基于仿射变换模型进行全局校正。然后，多模态图像被粗略对齐，除了一些局部的平行线，这些地方不适用仿射模型。其次，精确的配准和融合在一个统一的模块/网络中实现，称为精确配准和融合模块（F2M）。

🤔️：什么是仿射变换？

答：仿射变换是一种几何变换模型，可以用来对图像进行平移、旋转、缩放和剪切等变换操作。它是在二维空间中对点或图像进行线性变换和平移的组合操作。具体来说，仿射变换可以通过一个 2x3 的矩阵来表示，其中矩阵的前两列表示变换矩阵，最后一列表示平移矩阵。通过对原始图像中的所有点进行仿射变换，可以得到经过变换后的新图像

4.1. COARSE REGISTRATION MODULE

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c1ekDOfr-1689565200649)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230704102331781.png)]

本文提出的粗略配准模块的流程如图3所示。首先，TransNet将多模态图像转换为相同的域（即将 $I_x$ 转换为 $I_{x→y}$ ）。然后，AffineNet以 $I_{x→y}和I_y$ 作为输入，并输出仿射参数以生成 $I_x$ 的变形场。

疑问🤔️：如何将多模态图像转换为相同的域？为什么要转换到同一域中呢？

答：卷积神经网络（CNN）在图像转换任务中经常被使用，但单独使用卷积操作并不能直接实现多模态图像之间的转换。传统的卷积操作主要用于提取图像的局部特征，而无法对整个图像的模态差异进行建模和转换。为了实现多模态图像之间的转换，通常需要借助于特定的网络架构和训练方法。例如，可以采用生成对抗网络（GAN）或自编码器（Autoencoder）等结构。这些网络结构可以通过学习数据之间的映射关系，将多模态图像转换为相同的域，使它们在特征空间上更加接近。==生成对抗网络（GAN）==包括一个生成器和一个判别器。生成器负责将多模态图像转换为目标域，判别器则用于区分生成的图像和目标域图像。通过对抗性训练，生成器和判别器相互竞争，最终生成器可以学习到将多模态图像转换为目标域的能力。==自编码器（Autoencoder）==则是一种用于学习输入数据的低维表示的网络结构。通过将多模态图像输入到自编码器中，训练网络使其能够将多模态图像压缩为共享的低维表示，然后再通过解码器将其恢复为目标域图像。

我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度。

4.1.1 Image Translation Network

TransNet旨在学习图像转换函数 $T^y_x$ ，其中 $T^y_x$ 表示将域x中的图像 $I_x$ 转换为域y，同时保留内容信息。因此，我们使用编码器将 $I_x$ 嵌入内容空间 $c_x = E_x(I_x)$ ，同时去除域信息。为了确保 $c_x$ 包含内容信息，我们通过解码器 $D_x和D_y$ 将其映射回域，如图4所示。