RecDiffusion: Rectangling for Image Stitching with Diffusion Models

_DM

已于 2024-05-14 15:06:45 修改

阅读量766

点赞数 27

分类专栏：图像拼接文章标签：计算机视觉图像处理

于 2024-05-14 14:56:52 首次发布

本文链接：https://blog.csdn.net/m0_63257870/article/details/138648060

版权

图像拼接专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RecDiffusion: Rectangling for Image Stitching with Diffusion Models

paper：论文地址
code:代码地址

RecDiffusion: Rectangling for Image Stitching with Diffusion Models

摘要

引言：

摘要

将不同拍摄的图像拼接在一起通常会产生非矩形边界。非矩形边界，这通常被认为是不美观的。为了解决非矩形边界问题，目前的解决方案包括裁剪，这会丢弃图像内容、内绘，这可能会引入不相关的内容；或扭曲，这可能会扭曲非线性特征并引入人工痕迹。为了克服这些问题，我们引入了一种新颖的基于扩散的学习框架 RecDiffusion。该框架结合运动扩散模型（MDM）生成运动场，有效地从拼接图像的不规则边界过渡到几何校正的中间体。随后是内容扩散模型（CDM），用于图像细节细化。值得注意的是，在 CDM 的每次迭代中，我们的采样过程都会利用加权地图来识别需要校正的区域。我们的 RecDiffusion 可确保几何精度和整体视觉效果，在公共基准上进行评估时，其定量和定性指标均超过了以往所有方法。

引言：

图像拼接是一种将场景的多个重叠图像拼接在一起以生成宽视场（FOV）和高分辨率图像的技术[44]。这些方法通常采用单应性[26]进行全局对齐，或采用网格翘曲[51]进行重叠区域的局部对齐。然而，由于捕捉视角的不同，拼接算法生成的图像边界不再是矩形的，这是不满足人类视觉的，如图1（a）所示。

要解决这个问题，最直接的方法就是按最大的切口矩形裁剪图像，如图 1(b) 所示。然而，边界附近的图像内容必须舍弃，这也会造成图像像素的损失。另一种方法是利用最近最先进的生成模型，即稳定扩散模型（Stable Diffusion）[37]，来完成拼接，如图 1(c)所示。然而，它引入了不属于原始图像的额外内容。He 等人[9]提出了图像矩形化的概念，即*采用接缝雕刻技术[1]为初始矩形形状插入大量接缝，然后优化网格，对图像进行翘曲处理，以获得最终的矩形化结果。通过这种方法，可以保留突出的图像结构 ，而对不太重要的区域进行拉伸或挤压，以实现矩形形状。然而，基于扭曲的方法 [8, 9, 18] 通常只能保留线性结构，如曼哈顿世界。非线性结构 [55] 通常会被扭曲。图 1(d) 是一个例子。
       最近，Nie 等人[32]提出了一种深度学习框架，可直接最小化网格以扭曲图像，与传统管道相比有显著改进[9]。然而，由于翘曲运动场的精度不够以及翘曲操作的固有问题[6]，基于翘曲的方法可能会引入伪影和噪声，产生如图 1(e)所示的失真伪影（不一致的边界和不连续的线条）。
       在这项工作中，我们的目标是利用扩散模型（DMs）[40, 42, 50]重新制定图像矩形化任务。我们的理由有两点：1）扩散模型最近在多个领域取得了显著的成绩并展示了巨大的潜力，包括但不限于图像合成 [11，27]、修复 [28，29，47] 和增强 [14]。具体来说，DMs 已被证明在各种与运动相关的任务中非常有效，如人体运动生成[45]、单应性合成/估计[19]和深度/光流估计[39]；2）我们认为，从单幅图像预测运动是一个难以解决的问题，而 DMs 可以充分解决这个问题。这些模型明显改善了图像复原等经典问题的结果[46, 47]。因此，基于直觉和以往的成功经验，我们提出了第一个基于扩散的学习算法，作为应对上述挑战的基线。我们不只是寻找一对初始网格和目标网格进行扭曲，而是通过运动扭曲操作和图像内容细化来生成最终的矩形结果。
       具体来说，网络的输入是具有不规则边界的拼接图像 Is，输出是具有矩形边界的相应图像 IR′。具体来说，我们首先将 Is 输入所提出的运动扩散模型 (MDM)，以产生运动场。然后，我们利用该场对 IS 进行翘曲，生成几何正确的结果 IˆR，这表示大部分内容已得到纠正，但仍有一些细节有待优化，如边界附近的白边、不连续的线条和噪点。为了处理这些问题，我们将 IˆR 传递到另一个建议的内容扩散模型（CDM）中。值得注意的是，采样过程是通过将 IˆR 与 CDM 的输出融合来实现的。受秩-零化度定理（Rank-Nullity Theorem）[47]的启发，我们计算一个加权图 MˆR 来识别 IˆR 中的可信区域，因此，在 CDM 的每个采样步骤中，我们根据 MˆR 保留 IˆR 中的内容，并通过 1-MˆR 从 CDM 的输出中提取内容，然后将它们组合在一起，输入到另一个采样迭代中。通过这种策略，我们可以生成几何精度高、视觉效果好的结果，在定量和定性比较中均优于之前的所有方法。
       我们的贡献可概括如下：
- 提出了第一个基于扩散的图像拼接矩形化框架，即 RecDiffusion。
- 提出了一个运动扩散模型（MDM）来生成矩形拼接运动场，然后再提出一个内容扩散模型（CDM）来完善图像细节。
- 广泛的实验表明，与以往的传统方法和深度方法相比，我们的方法在公共基准测试中取得了一流的性能。

方法

方法概括

图 2 阐释了拼接图像的处理原理。获取拼接图像后，我们利用两个扩散模型对其进行处理。在初级阶段，运动扩散模型（MDM）生成运动场，将具有不规则边缘和白色边缘的拼接图像转换为无缝矩形格式，没有这些边缘，详见第 3.3 节。这一阶段采用的是 "图像到运动 "范式，该范式因其在划分低层次特征方面的功效而著称[39]。然而，MDM 会因运动场的不完美和重映射操作的复杂性而产生噪声和形态误差[6]，图 2 中的 "翘曲拼接图像 "就是明显的例子。为了改善这些假象，我们利用内容扩散模型（CDM）进行了第二阶段的处理，该模型专门针对 MDM 应用后的图像进行细化，尤其是在出现问题的区域内。这种改进是通过一种新颖的策略来实现的，该策略采用加权采样，以秩-零定理（RNT）原理为基础[47]。

扩散模型

Sohl-Dickstein 等人[40]阐述了扩散模型的基本原理，随后，Ho 等人[11]对其进行了改进，利用马尔可夫过渡过程的 T 个步骤，将高斯噪声依次注入原始数据分布 x0 ∼ q(x)。这种方法会生成一系列噪声逐渐增大的图像 {x1, . , xT }，统称为前向扩散，简洁表述如下：

每个时间间隔的噪声分布遵循由方差表 $\left \{\beta _{t}\subset (0,1)\right \}_{t=1}^{T}$ 所描绘的高斯分布：

利用 Kingma 等人[16]概述的重参数化技术，就可以从任意 t∈ [1, T ] 的中间分布 xt 中采样：

其中 $\alpha _{t}=1-\beta {_{t}}$ , $\bar{\alpha }_{t}=\prod_{i=1}^{t}\alpha _{i}$ 。此后，我们引入优化的去噪模型θ来逆扩散过程，从而产生符合目标数据分布的图像，从各向同性高斯噪声 $X{_{T}}$ ~ $N(0,I)$ 开始：

通过执行这种反转转换，系统被赋予了将高斯分布转换回初始数据分布的能力。

为了加强模型对生成过程的控制，提高生成图像的保真度，我们按照 Ho 等人[10]的方法，在结构框架中引入了额外的调节变量 y。调节机制通过将这些变量与中间的噪声数据合并，从而获得更好的结果：

矩形扩散模型

在我们的方法中，以 S 表示的拼接图像可视为矩形图像 R 的退化对应物，其中的合成退化归因于运动扭曲和内容退化。因此，所提出的框架旨在学习从 S 到 R 的转换，它通过训练运动扩散模型（MDM）和内容扩散模型（CDM）来实现各自的退化过程。

训练程序概述。左边的块说明了MDM的训练，MDM从拼接的图像Is及其掩模Ms生成运动场^x0，将Is转换为矩形图像I^R。右块显示了相同条件下CDM的训练（Is,Ms），以直接生成矩形结果x’0。这两种方法都旨在从拼接输入重建高清矩形图像，分别通过运动和基于内容的方式实现。

训练过程： 如图 3 左侧所示，基于公式 6 中定义的条件框架，从随机数据点 x0 ∼ q(F)开始，我们按照公式 3 迭代引入噪声。网络 $\theta _{1}$ 的输入包括相关的拼接图像 $I_{S}$ 、其相应的描述有效图像内容的掩码 $M_{S}$ 以及噪声运动场 $x_{t}$ 。该网络的输出，即生成的运动场 $\hat{X}_{0}$ ，然后通过扭曲函数 W(.) 对 Is 进行矩形化处理，从而得到矩形化图像 $I_{\hat{R}}$ ：

训练损失包括两个部分：量化输入和输出运动场散度的均方误差 $l_{sme}$ ，其定义为

以及评估所得到的矩形图像和真实值之间的差异的光度损失，给出如下：

因此，合成损失函数以加权和的形式呈现：

其中 ${\tfrac{l_{mse}}{l_{pl}}}$ 的范数用于平衡每个损失分量对总体训练目标的贡献。

对于内容扩散模型（CDM）的训练，我们采用并行策略，如图3的右块所示。在这里，CDM管理一个“图像到图像”的扩散过程，涉及模型 $\theta _{2}$ ，其目的是细化MDM矩形图像 $I_{\hat{R}}$ 。与MDM不同，在CDM中，我们通过采样 $x_{0}$ ~ $q(R)$ 将生成过程导向原始矩形图像，同时保留相同的条件输入，特别是拼接图像 $I_{S}$ 和掩模 $M_{S}$ 。因此，模型产生矩形图像的增强版本，表示为 ${x}'_{o}$ 。相关联的训练损失是测量这些增强图像和真实值矩形图像之间的距离的MSELoss：

在利用扩散模型的能力来捕捉和校正基于运动和基于内容的退化时，集成的训练过程能够从输入拼接的对应物重建高保真矩形图像。

取样程序说明。最初，拼接图像IS和掩模MS由MDM处理，MDM迭代生成运动场^x0并扭曲IS以形成具有相应置信度掩模M^R的初步矩形图像I^R。其次，对于每个采样步骤，CDM通过保留I^R的置信度区域M^R并通过CDM x’0的输出更新非置信度区域（1−M^R）来抛光这些图像。因此，我们能够迭代重建理想的矩形图像。

取样过程：图4描述了我们遵循的采样过程。在充分训练了运动扩散模型（MDM）和内容扩散模型（CDM）之后，我们通过两个主要步骤将拼接图像转换为精细的矩形图像。首先，将成对的拼接图像 $I_{S}$ 及其相应的掩码 $M_{S}$ 作为输入。接着，通过一系列步骤从高斯噪声中迭代估计校正运动场 $\hat{X}_{0}$ 。这些场随后将 $I_{S}$ 进行warp，产生初步的矩形化结果，即 $I_{\hat{R}}$ 。考虑到这个过程可能会因为生成的运动场的准确性以及重映射操作的特性而引入噪声和伪影，我们的策略包括计算一个置信度掩码 $M_{\hat{R}}$ ，以根据置信度水平对区域进行分类。

更具体地说， $M_{\hat{R}}$ 是通过三种不同的掩码计算得出的：1) 输入的拼接图像掩码 $M_{S}$ ，2) $\hat{X}_{0}$ 的强度图 $M_{0}$ ，这是通过网格的归一化位移获得的，3) $I_{\hat{R}}$ 的白色边缘掩码作为 $M_{1}$ 。然后，我们可以将 $M_{\hat{R}}$ 表示为：

其中 $w_{0}$ 是要调优的超参数。

其次，我们利用内容扩散模型（CDM）来优化 $I_{\hat{R}}$ 中存在的噪声和伪影。为了实现这一点，我们采用了一种受秩-零化度定理（（Rank-Nullity Theorem，RNT）启发的加权采样技术[47]。我们首先建立两个主要约束：一致性约束（等式13），它表示，在退化A之后， $\hat{r}$ （代表矢量化后的 $I_{\hat{R}}$ ）应该与矢量化后的期望的矩形图像 ${r}'$ 相匹配。此外，我们实现了一个真实性约束（等式14），提出符合预期的分布的生成结果 ${r}'$ ：

然后，我们基于秩-零化度定理（等式15）制定一个方程，用于合并一致性和真实性的约束：

其中 $A^{+}$ 表示A的伪逆。这个方程把 ${r}'$ 表示为它在矩阵A的值域空间的投影和它在相应的零空间的投影的组合。

回到我们的方法，我们希望通过残差网络变换（RNT）产生有利于矩形化的图像 $I_{R^{'}}$ （其中 ${r}'$ 表示矢量化格式）。为了实现这一点，我们考虑将 $I_{\hat{R}}$ 的置信区域 $M_{\hat{R}}$ 作为值域空间，其余区域作为零空间。因此，退化矩阵 A 被置信掩码替换，为每个样本步骤在 $\hat{r}$ 和 ${r}'$ 之间建立了一种新的关系，如等式 16 所示，其中 M 和 r 之间的乘法是元素级别的乘法。

本质上，从 $M_{\hat{R}}$ 向量化得到的对角矩阵 M 有助于整合与图像不同区域相关联的置信度级别。通过这种修正后的关系，细化过程会迭代地调整 $\hat{r}$ 以趋近最终的目标 ${r}'$ 。

这个迭代过程在图4的右面板中进行了图形化描述。具体来说，对于每次迭代，算法会保留 $\hat{r}$ 中置信度高的像素，如掩码 $M$ 所指示的，该掩码等于 $M_{\hat{R}}\times I_{\hat{R}}$ ，然后通过乘以 $\sqrt{\bar{a}_{t}}$ 扩散到时间步长 t。相反，对于由 (I − M) 标识的剩余像素，使用内容扩散模型（CDM）的输出来替代值，目的是减少噪声并增强真实感。这可以表示为 $\left ( 1-M_{\hat{R}} \right )x_{0}'$ 。这种采样方法允许我们逐步重构 ${r}'$ ，从而实现 $x_{0}'$ 的逐步细化，完成矩形化图像 $I_{R^{'}}$ 的生成。

实验

实验的配置

所提出的框架由MDM（运动扩散模型）和CDM（条件扩散模型）组成。它们的设计遵循了DDIM [41]和无分类器方法（CFG）[10]。两者都使用Adam优化器[15]进行训练，参数设置为β1 = 0.9，β2 = 0.99。用于训练MDM的生成伪运动场来自先前最先进的方法，即Nie等人[32]。对于MDM的配置，CFG的条件缩放为6，学习率为 $2.0\times 10^{-4}$ ，批大小为64，采样步长为2，训练步数为320,000步。对于CDM，批大小为32，学习率为 $1.0\times 10^{-5}$ ，采样步长为200，训练步数为450,000步。在8个NVIDIA A100显卡上训练MDM和CDM分别需要3天和4天。更多细节将在补充材料中展示。

定量比较

我们采用了之前研究中的评估设置，利用Fréchet Inception Distance（FID）、Structural Similarity Index（SSIM）和Peak Signal-to-Noise Ratio（PSNR）来评估这些方法。在DIR-D数据集上的评估结果如表1所示，我们将我们的方法与传统的矩形化方法[9]和基于深度学习的技术[32]进行了比较。特别地，我们在训练集上计算FID，因为519个测试案例不足以计算一个有意义的分数。之前的方法往往将矩形化视为一个回归问题，使用特定的架构和针对任务的损失函数来解决它，如局部到全局的策略、特征扭曲、感知损失或网格约束。相反，我们的生成框架不依赖于特定的组件或回归框架，而是完全依赖于扩散模型，并在所有指标上都取得了卓越的性能，确立了新的最先进状态。它为解决该问题提供了一种新颖的技术路径。

定性比较

聂等人[32]对DIR-D数据集的比较评价。输入拼接图像和GT矩形参考显示在前两列中。第三列显示了聂等人的矩形结果，而我们提出的基于扩散模型的结果显示在最后一列。在图（a）中，红色箭头突出了之前状态作品中出现的白边伪影。图（b）仔细检查了内部伪像的存在，如线不连续和局部失真，在对准热图上圈出的感兴趣区域（ROI）内突出显示，其中较暗的阴影表示真实值的保真度较高。我们的结果证明了与真实值增强的相似性，表明与以前的方法相比，伪像显著减少。

我们的方法在DIR-D数据集上与之前的最先进方法[32]进行了比较。视觉比较分别如图5所示。在图5（a）的比较中，我们主要比较校正后的拼接图像是否是无缝的矩形，因为据我们所知，矩形化任务最关键的方面之一是完全消除拼接图像的不规则边界。然而，Nie等人[32]利用扭曲网格来实现矩形化，自然会因为运动校正的准确性和扭曲操作的固有问题而面临不规则边界伪影的风险。我们用红色箭头指出了图中的白色边缘区域。相反，我们基于扩散模型的框架从示意图方面定位问题，并能够生成所需的矩形化图像。另一方面，尽管白色边缘不完整，但图像内部也可能出现伪影。例如，由于扭曲运动场的精度和平滑度不足，可能会出现线条不连续和局部失真。我们在图5（b）中展示了相关图像。更具体地说，为了生动地展示生成结果与GT（Ground Truth，真实值）图像之间的相似性，我们采用了对齐热图[13]，其中较暗的区域对应于更好的相似性。我们在图中圈出了一些ROI（感兴趣区域），这些区域是主题内容。从结果中，我们可以观察到我们生成的结果更接近GT矩形化图像，因此受到的伪影影响较小。更多动态的GIF格式结果可以在补充材料中找到。

泛化性实验

我们在APAP-conssite[51]上测试了不同方法的零射击能力，包括何等人[9]，聂等人[32]和我们在DIR-D上训练的再扩散[32]。屋顶和树枝扭曲（何等人结果中的红框和箭头）、烟囱破损和花坛移出图中（聂等人结果中的红框和箭头）存在于其输出中。我们的结果在其中表现最好。

我们的RecDiffusion在DIR-D数据集[32]上进行了预训练。结果如图6所示。从结果中，我们观察到其他方法产生了伪影，如红色方框和箭头所示，例如，在He等人的结果中，烟囱和树枝出现了扭曲。Nie等人的输出也包含线条不连续（红色方框）并且花坛从图的底部被移除了（红色箭头）。相反，我们框架的稳健主干确保了它在不同数据集上的泛化能力。

与修复方法（Inpainting）的比较

Adobe商业软件绘制的拼接图像——生成填充、调色板[38]和稳定扩散2.1[37]。

图像矩形化旨在消除不规则边界，同时尽可能保持数据一致性和获得良好的定性结果。因此，之前的方法[9，32]选择对拼接图像进行扭曲变形。虽然修复方法[37，38]在生成视觉上令人愉悦的结果方面非常强大，但它们倾向于在拼接图像中引入额外的内容，如图7所示，从而对数据一致性产生负面影响。如表2所示，修复后的拼接图像（第2行和第3行）的PSNR/SSIM指标远低于RecDiffusion方法的结果。此外，它们的FID分数（在训练集上计算）高于将拼接输入图像与真实矩形化图像进行比较的FID分数，这表明图像质量存在显著差异。

消融实验

我们通过在DIR-D数据集[32]的测试集上进行实验来评估我们的框架设计，首先从运动扩散模型（MDM）的细节开始进行比较。具体来说，我们在不同的分辨率和拼接图像掩码MS作为输入的有效性上进行了实验。然后，我们探索了内容扩散模型（CDM）的设计，评估了不同的组合，包括仅利用CDM、将MDM与CDM结合使用，以及权重采样掩码的有效性。

运动扩散模型

在实现运动扩散模型（MDM）时，条件拼接图像掩码MS和分辨率是影响性能的重要因素，如表3所示。没有掩码，模型甚至无法超越基线，即用于训练集生成伪运动场的模型。如预期一样，更高的分辨率带来了更好的结果，但较小的分辨率可以大大加快推理速度。

内容扩散模型

结果如表 4 所示。我们发现，由于 CDM 生成的图像光照度不同，因此单独使用 CDM 效果不佳。此外，我们发现 MDM 的输出可以通过 CDM 直接改进，而加权采样掩码（WSM）可以进一步提高性能，如图 8 所示，局部失真被消除，缺失的内容也得到了恢复（红色箭头标记）。

总结

在这项工作中，我们提出了RecDiffusion，这是第一个基于扩散模型的方法来校正拼接图像。与以往专门为此任务设计的方法相比，这些方法包括特殊的网络结构和损失函数，我们展示了基于生成运动的典型扩散模型优于这些方法。此外，为了解决运动不准确和扭曲操作引入的伪影问题，我们提出了一种使用加权采样掩码的策略。该策略结合了扭曲方法和生成建模的优势，有效地提高了性能。这种方法有可能应用于其他与运动相关的任务。总的来说，我们在公共基准测试中与以往方法相比取得了最先进的性能。

_DM

关注

27
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
RecDiffusion: Rectangling for Image Stitching with Diffusion Models

一种新颖的基于扩散的学习框架 RecDiffusion。该框架结合运动扩散模型（MDM）生成运动场，有效地从拼接图像的不规则边界过渡到几何校正的中间体。随后是内容扩散模型（CDM），用于图像细节细化。值得注意的是，在 CDM 的每次迭代中，我们的采样过程都会利用加权地图来识别需要校正的区域。我们的 RecDiffusion 可确保几何精度和整体视觉效果，在公共基准上进行评估时，其定量和定性指标均超过了以往所有方法。
复制链接

扫一扫