Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models (Paper reading)

最新推荐文章于 2024-06-18 07:01:52 发布

努力学图像处理的小菜

最新推荐文章于 2024-06-18 07:01:52 发布

阅读量683

点赞数 1

分类专栏： Low-level 图像处理扩散模型文章标签：人工智能计算机视觉算法

本文链接：https://blog.csdn.net/qq_43800752/article/details/130241978

版权

扩散模型同时被 3 个专栏收录

45 篇文章

订阅专栏

图像处理

40 篇文章

订阅专栏

Low-level

25 篇文章

订阅专栏

Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models

Guanhua Zhang, UC Santa Barbara, USA, arXiv2023, Cited:0, Code, Paper

1. 前言

在这里插入图片描述

图像修复是指基于部分显露的参考图像生成完整的、自然的图像的任务。近年来，利用固定扩散模型来解决这一问题一直是人们研究的热点。这些方法通常直接将中间或最终生成的图像的显露区域替换为参考图像或其变体的区域。然而，由于未显示区域没有被直接修改以匹配上下文，因此导致显示区域和未显示区域之间的不一致。为了解决不一致性问题，少数方法引入了严格的贝叶斯框架，但由于计算后验分布时的近似误差，它们往往会在生成的图像和参考图像之间引入失配。在本文中，我们提出了COPAINT，它可以在不引入失配的情况下对整个图像进行一致性修复。COPAINT还使用贝叶斯框架来联合修改显露区域和未显露区域，但以一种允许误差在去噪步骤中逐渐降至零的方式近似后验分布，从而强烈地惩罚与参考图像的任何不匹配。我们的实验验证了COPAINT在客观和主观指标上都优于现有的基于扩散的方法。

2. 整体思想

3. 方法

Inpainting任务，如下图，显露区域为a左，未显露区域是右边。定义 $X_0$ 是自然图像的向量化。我们通过逆向过程中第 $T$ 步的变量可以估计出 $\tilde X_0=f_{\theta}^{t}(X_t)$ 。值得注意的是，他们之间的差距会随时间t变小而变小。
在这里插入图片描述

定义 $r(\cdot)$ 算子，输出输入维度的显露出来的子集。 $s_0$ 是给定参考图像显露出来的部分(a)。图像修复的目标是在以下修复约束下生成一幅自然图像：
$C:r(X_0)=s_0$
许多现有的基于扩散模型的方法只替换了生成的 $X_T$ 中间或最终图像 $X_0$ 的显示区域，以直接施加修复约束，而剩余的未揭示区域的生成并没有以匹配上下文进行修改。因此，生成的图像很容易在揭示和未揭示的区域之间出现不连贯的问题。在下文中，我们将解释我们建议如何联合优化这两个区域。

其实，我们要保证一致性，就要给一定的约束，不能让生成模型自己来随机生成。先看公式10，我们希望扩散模型估计的 $\tilde X_0$ 的显露部分与原图一致，第一项可以被视为先验正则化，第二项被视为强制修复约束的惩罚项。我们可以对其使用梯度上升来找到最大后验估计。
在这里插入图片描述
其中， $\xi^{' 2}_{T}=\frac{1}{N}\mathbb{E}_{p_\theta}[||r(f_{\theta}^{T}(\tilde X_T))-r(\tilde X_0)||^{2}_{2}]$ 。我们可以通过这种自适应的调整来增加权重。公式10会拉近真实和估计的 $\tilde X_0$ 的距离，这样做有一个问题是，当 $t$ =0时，我们不需要采样，那么这时候就没有办法进行优化，也就是当 $t = 1$ 时，注入的噪声会影响 $t = 0$ 时刻，这时我们希望多优化一次就可解决这个问题。具体的方法如公式14，可以看到和公式10是一样的，只是优化来下一步的采样。

在这里插入图片描述

算法流程如下图所示，首先，我们通过优化公式 10 对 $X_T$ 进行采样。其次，给定生成的 $X_t$ 值，我们通过优化公式 14 对 $X_{t-1}$ 进行采样。这两个步骤本质上都在 DDIM 先验正则化下强制执行近似修复约束。特别是，当 $t = 1$ 时，如果我们设置 $σ_1 = 0$ 并让 $ξ_1$ 接近为零，我们将有零近似误差，即 $^{1}_θ (\tilde X_1) = \tilde X_0$ ，因此可以获得生成的图像以满足误差非常小的修复约束。

在这里插入图片描述

3.1 额外的算法设计

尽管我们的算法最终可以消除最终去噪步骤中的一步近似误差，在早期的去噪步骤中，仍然可以影响生成质量，因为它会影响后续世代的先验分布的质量。我们引入了额外的可选设计来减少近似误差。

多步近似在逼近误差,更显著的早期去噪步骤中，我们可以用多步近似代替一步近似，其中 $\tilde X_0$ 是通过在时间步长的子集通过多个确定性去噪步骤来近似的。
时间旅行：为了提高中间示例的自一致性，我们可以应用时间旅行技术，该技术通过破坏中间图像周期性地返回到之前的去噪步骤。具体而言，对于去噪时间步长 $T - τ$ 处的一组选定时间步长 $φ$ ，我们不前进到 $T - τ - 1$ ，而是通过基于采样一个新的 $q(\tilde X_{T−1} | \tilde X_{T−τ}）$ 来倒退到时间 $T - 1$ ，并从那里重复去噪步骤。经过步骤 $T - 1$ 到 $T - τ$ 的 $K$ 轮倒带和去噪后，我们通过步骤 $T - τ - 1$ 到 $T - 2 τ$ 进入 $K$ 轮倒绕和去噪循环。

4. 实验

在这里插入图片描述