A Variational Perspective On Solving Inverse Problems With Diffusion Models_preconditioned diffusion models for inverse proble-CSDN博客

本文链接：https://blog.csdn.net/qq_42208244/article/details/142101379

A Variational Perspective On Solving Inverse Problems With Diffusion Models

Abstract
Instroduction
Related work
Background
- Denoising Diffusion Models
- Score Approximation For Inverse Problems
Variational Diffusion Sampling

Abstract

扩散模型已成为视觉领域基础模型的重要支柱之一。其关键应用之一是通过单一的扩散先验，不用为每个任务重新训练，就能普遍解决不同的下游逆任务。大多数逆任务可以表述为给定测量（例如，掩码图像）推断数据（例如，完整图像）的后验分布。然而，由于扩散过程的非线性和迭代性质，这在扩散模型中是具有挑战性的，因为后验分布是不可处理的。为应对这一挑战，我们提出了一种**变分方法，**旨在设计上逼近真实的后验分布。我们展示了我们的方法自然地引出了通过去噪扩散过程（RED-diff）进行正则化，其中不同时间步的去噪器同时对图像施加不同的结构约束。为了衡量来自不同时间步去噪器的贡献，我们提出了一种基于信噪比（SNR）的加权机制。我们的方法为用扩散模型解决逆问题提供了一个新的变分视角，使我们能够将采样表述为随机优化，其中可以简单地应用轻量迭代的现成求解器。

Instroduction

扩散模型，如Stable Diffusion（Rombach等，2021），正在成为当今视觉基础模型的重要组成部分。这些扩散模型的重要用途之一是将它们作为先验分布，用于在图像修复和渲染等各种下游逆问题中的采样。然而，这需要采样器满足以下要求：（i）通用且适应各种任务，无需为每个任务重新训练；（ii）高效且易于调节。最近有一些尝试开发用于逆问题的通用采样器；例如，DDRM（Kawar等，2022a）最初是为了扩展DDPM（Ho等，2020）以处理线性逆问题。它依赖于SVD将线性观测融入去噪过程中。然而，DDRM需要许多测量才能工作。随后，ΠGDM（Song等，2023）被引入以增强DDRM。ΠGDM的核心是通过反演从线性观测中获取指导，来增强去噪扩散评分。同样，DPS（Chung等，2022a）将评分修改框架扩展到一般（非线性）逆问题。然而，DPS和ΠGDM中的评分修改方法在很大程度上依赖于近似。实际上，反向扩散过程的非线性和递归性质使得后验分布变得相当难以处理且多峰。然而，DPS和ΠGDM依赖于评分的简单单峰近似，这在扩散过程的许多步骤中是相当松散的近似。

为了回避后验评分近似的挑战，我们提出了一种基于变分推断的完全不同的方法（Blei等，2017；Ahmed等，2012；Hoffman等，2013）。采用去噪扩散模型作为数据先验，并将测量模型表示为似然，我们使用变分推断来推断给定观测的后验数据分布。我们的方法本质上是使用KL散度将数据分布的模式与高斯分布匹配。这导致了一种简单的（加权）评分匹配标准，通过去噪扩散过程正则化观测的测量匹配损失。有趣的是，评分匹配正则化具有简单梯度的可解释形式。

这与Romano等人（2016年）提出的正则化去噪（RED）框架相似，在这个框架中，扩散过程中的不同阶段的去噪器施加了从高层语义到细节的不同结构约束。这是一个重要的联系，它将采样视为随机优化。因此，可以简单地使用现成的优化器库来进行采样，这使得推断过程既高效又可解释，并且容易调整。我们将这种方法命名为RED-diff。然而，值得注意的是，我们的框架与RED在几个方面有所不同：首先，我们从一个原则性的变分视角出发来推导我们的目标，这一视角已经被充分研究和理解；其次，我们的正则化利用了来自所有扩散步骤的反馈，涵盖了不同的噪声水平，而RED只使用了一个去噪模型。

为了使评分匹配正则化成功，不同时间步的去噪器需要进行适当的加权。为此，我们提出了一种基于每个时间步去噪信噪比（SNR）的加权机制，该机制在反向扩散过程中对早期步骤加权，并对后期时间步进行减权。为了验证这一提议，我们进行了各种线性和非线性逆问题的实验和消融研究。主要发现包括：

RED-diff在图像逆问题中实现了比最先进的采样器更优越的图像保真度和感知质量；
RED-diff具有轻量级迭代，不涉及DPS和ΠGDM中的评分Jacobian，因此更加内存高效且对GPU友好；
消融研究表明，优化器参数如学习率和步骤数量是调整保真度和感知质量之间权衡的合适调节器。

Related work

Diffusion models for inverse problems:

最近有几个研究工作将扩散模型以“即插即用”的方式应用于各个领域的逆问题，例如自然图像（Jalal等，2021；Kawar等，2022a；Song等，2023；Chung等，2022a;b；Graikos等，2022；Chung等，2023a;b）、医学图像（Jalal等，2021）和音频处理（Kong等，2020）。我们主要关注图像领域，这些工作在处理测量数据的方式上有所不同。

作为早期工作的一部分，Kadkhodaie和Simoncelli（2021）以及Jalal等（2021）采用了Langevin动态方法来处理线性逆问题，并通过投影（Kadkhodaie和Simoncelli，2021）或最小二乘保真度的梯度（Jalal等，2021）来整合观测引导。其他一些工作采用DDPM（Ho等，2020）扩散模型，在扩散去噪和投影步骤之间交替进行（Choi等，2021；Chung等，2022c）。然而，这些迭代可能会累积误差，使得轨迹偏离先验流形，
MCG方法（Chung等，2022b）提出了一个额外的修正项，受流形约束的启发，以保持迭代接近流形。DDRM（Kawar等，2022a）扩展了DDPM，用矩阵SVD解决线性逆问题，但在测量有限的情况下效果不佳。
为了克服这一不足，最近的方法旨在通过重建引导（Ho等，2022）来提供指导，这在DPS（Chung等，2022a）中进一步扩展到非线性逆问题。ΠGDM（Song等，2023）引入了伪逆引导，通过反转测量模型来改进引导近似。然而，它的范围仅限于线性和某些半线性任务（如JPEG（Kawar等，2022b））。然而，ΠGDM和DPS都严重依赖于对不可处理后验评分的近似，这在许多扩散过程的步骤中对非小噪声水平来说非常粗糙。
Graikos等（2022）最近还提出了一种不同的方法，该方法通过扩散误差损失来正则化逆问题的重建项。这类似于传统的即插即用先验（P3）方法（Venkatakrishnan等，2013），其起源于ADMM优化（Boyd等，2011）。然而，我们的方法在精神上更接近RED框架，这提供了更多的优化器和调节灵活性；（Romano等，2016；Cohen等，2021）。

Background

Denoising Diffusion Models

扩散模型（Sohl-Dickstein等，2015；Ho等，2020；Song等，2021b）包括两个过程：前向过程和反向过程。前向过程逐渐向输入图像添加噪声，而反向过程通过迭代去噪来学习生成图像。形式上，前向过程可以通过方差保持随机微分方程（VP-SDE）（Song等，2021b）来表达：
$-\frac{1}{2} \beta(t)x \, dt + \beta(t) \, dW$

其中 $\in [0, T]$ ， $\beta(t) = \beta_{\text{min}} + (\beta_{\text{max}} - \beta_{\text{min}}) \frac{t}{T}$ 重新缩放时间变量， $d W$ 是标准Wiener过程。前向过程的设计使得在过程结束时， $x_T$ 的分布收敛到标准高斯分布（即， $x_T \sim \mathcal{N}(0, I)$ ）。

反向过程通过以下公式定义：
$-\frac{1}{2} \beta(t)x \, dt - \beta(t) \nabla_x \log p(x_t) \, dt + \beta(t) \, d\bar{W}$

其中 $\nabla_x \log p(x_t)$ 是时间 $t$ 处的扩散数据的评分函数， $d\bar{W}$ 是反向标准Wiener过程。

求解反向生成过程需要估计评分函数。在实际应用中，这通过从前向扩散过程中采样，并使用去噪评分匹配目标（Vincent, 2011）来训练评分函数来完成。具体来说，扩散样本的生成由以下公式给出：
$x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I), \quad t \in [0, T] \tag{1}$

其中 $x_0 \sim p_{\text{data}}$ 从数据分布中抽取， $\sigma_t = \sqrt{1 - e^{- \int_{0}^{t} \beta(s) \, ds}}$ ， $\alpha_t = \sqrt{1 - \sigma_t^2}$ 。我们用参数化的评分函数（即扩散模型）来表示为 $\epsilon_\theta(x_t; t) \approx -\sigma_t \nabla_x \log p(x_t)$ ，其中参数为 $\theta$ ，我们可以通过如下的欧几里得损失混合来训练 $\epsilon_\theta(x_t; t)$ ：
$\min_\theta \mathbb{E}_{x_0 \sim p_{\text{data}}(x_0), \epsilon \sim \mathcal{N}(0, I), t \sim U[0, T]} \left[ \| \epsilon - \epsilon_\theta(x_t; t) \|^2_2 \right]$

也可以使用其他针对 $t$ 的损失加权函数。给定训练好的评分函数，可以使用DDPM（Ho等，2020），DDIM（Song等，2020）或其他求解器（Lu等，2022；Zhang & Chen，2022；Dockhorn等，2022）来生成样本。

Score Approximation For Inverse Problems

逆问题可以被表述为从一个（非线性且带噪声的）观测值中找出 $x_0$ ：
$f(x_0) + v, \quad v \sim \mathcal{N}(0, \sigma_v^2 I) \tag{2}$

其中，前向（也称为测量）模型 $f$ 是已知的。在许多应用中，例如图像修补，这是一个严重病态的问题，需要强大的先验来找到一个合理的解决方案。我们的目标是利用（预训练的）扩散模型提供的先验，以即插即用的方式有效地从条件后验中采样。我们将扩散模型施加的先验分布表示为 $p(x_0)$ 。测量模型可以表示为： $x_0) = \mathcal{N}(f(x_0), \sigma_v^2)$

解决逆问题的目标是从后验分布 $p(x_0 | y)$ 中采样。

正如我们在前面部分讨论的那样，扩散模型依赖于估计的评分函数来生成样本。在存在观测值 $y$ 的情况下，只要可以获得所有扩散步骤的条件评分的近似，就可以用它们生成合理的 $x_0 \sim p(x_0 | y)$ 。这就是 ΠGDM（Song等，2023）和 DPS（Chung等，2022a）的核心思想。

具体来说，基于贝叶斯规则，条件评分 $\nabla_x \log p(x_t | y)$ 可以简单地得到为：
$\nabla_x \log p(x_t | y) = \nabla_x \log p(y | x_t) + \nabla_x \log p(x_t)\tag{3}$
总评分是模型似然和先验评分的叠加。虽然 $\nabla_x \log p(x_t)$ 可以从预训练的扩散模型中轻松获得，但似然评分却非常困难，且在没有特定任务训练的情况下无法估计。这可以从以下事实看出：
$x_t) = \int p(y | x_0) p(x_0 | x_t) \, dx_0$

尽管 $p(y | x_0)$ 采用简单的高斯形式，但去噪分布 $p(x_0 | x_t)$ 可以非常复杂且多模态（Xiao等，2022）。因此， $p(y | x_t)$ 也可能非常复杂。为了规避这个问题，先前的工作（Song等，2023；Chung等，2022a；Kadkhodaie & Simoncelli，2021；Ho等，2022）依赖于在 MMSE（最小均方误差）估计点附近对 $p(x_0|x_t)$ 的高斯近似：
$\mathbb{E}[x_0 | x_t] = \frac{1}{\alpha_t} \left(x_t - \sigma_t \epsilon_\theta(x_t, t) \right) \tag{4}$

根据公式（1）： $x_t = \alpha_t x_0 + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I), \quad t \in [0, T]$

Variational Diffusion Sampling

在本节中，我们介绍了我们在解决逆问题方面的变分视角。为了应对之前方法在采样条件后验分布 $p(x_0 | y)$ 时存在的不足，我们提出了一种基于KL最小化的变分方法：
$\min_q \text{KL}(q(x_0 | y) \| p(x_0 | y)) \tag{5}$

其中 $q$ 是一个变分分布，定义为 $\mathcal{N}(\mu, \sigma^2 I)$ 。分布 $q$ 试图在数据分布中找到最主要的模式，以匹配观测值。可以很容易地证明，方程 (5) 中的KL目标可以展开为：
$\text{KL}(q(x_0 | y) \| p(x_0 | y)) = - \mathbb{E}_{q(x_0 | y)} \left[ \log p(y | x_0) \right] + \text{KL}(q(x_0 | y) \| p(x_0)) + \log p(y) \tag{6}$

其中：

项 (i) 是变分界限，通常用于训练变分自编码器（Kingma & Welling, 2013；Rezende et al., 2014）。
项 (ii) 是观测似然，对 $q$ 来说是常数。

因此，为了最小化方程 (5) 中的KL散度，相对于 $q$ ，只需最小化方程 (6) 中的变分界限（项 (i)）。

这引出了下一个命题：

命题 1 假设评分函数被准确地学习，即 $\epsilon_\theta(x_t; t) = -\sigma_t \nabla_{x_t} \log p(x_t)$ 。那么，相对于 $q$ 的KL最小化等同于最小化变分界限（方程 (6) 中的项 (i)），该界限本身遵循评分匹配损失：
$\min_{\mu, \sigma} \mathbb{E}_{q(x_0 | y)} \left[ \frac{\| y - f(x_0) \|^2_2}{2 \sigma_v^2} \right] + \int_0^T\tilde w(t)\mathbb E_{q(x_t|y)} \left(\left\| \nabla_{x_t} \log q(x_t | y) - \nabla_{x_t} \log p(x_t) \right\|^2_2 \right) dt \tag{7}$

其中 $q(x_t | y) = \mathcal{N}(\alpha_t \mu, \alpha_t^2 \sigma^2 + \sigma_t^2 I)$ 通过从 $q(x_0 | y)$ 中采样 $x_0$ 并应用方程 (1) 中的前向过程来生成样本 $x_t$ ，而 $\tilde{\omega}(t) = \frac{\beta(t)}{2}$ 是损失加权项。

命题 1 的证明

如第 4 节所讨论的，通过贝叶斯规则，可以将方程 (5) 中的 KL 目标重新写为： $\text{KL}(q(x_0|y) \| p(x_0|y)) = - \mathbb{E}_{q(x_0|y)} \left[ \log p(y|x_0) \right] + \text{KL}(q(x_0|y) \| p(x_0))$

对于最小化目的，项 (ii) 是一个常量，我们可以忽略它。然而，项 (i) 还有两个部分。第一部分就是重建损失。根据主论文中的方程 (2) 中的测量模型，由于我们假设噪声是独立同分布的高斯噪声，第一部分可以简单地推导为：
$\mathbb{E}_{q(x_0|y)} \left[ \log p(y|x_0) \right] = - \frac{1}{2 \sigma_v^2} \mathbb{E}_{q(x_0|y)} \left[ \| y - f(x_0) \|^2 \right]$

使用 Song et al. (2021a) 中的定理 2，假设评分函数完全学习到，即 $\epsilon_\theta(x_t; t) = -\sigma_t \nabla_{x_t} \log p(x_t)$ ，在对 $log q(x_t | y)$ 和 $p(x_t)$ 在无穷大处增长的某些温和假设下，我们有：

$\text{KL}(q(x_0|y) \| p(x_0)) = \int_0^T \frac{\beta(t)}{2} \mathbb{E}_{q(x_t|y)} \left[ \| \nabla_{x_t} \log q(x_t | y) - \nabla_{x_t} \log p(x_t) \|^2 \right] \, dt \tag{12}$

这是在正值 $\beta(t)$ 的扩散去噪轨迹 ${x_t\}$ 上的。实际上，这意味着在连续去噪扩散轨迹上的加权评分匹配等于 KL 散度。然而，在实际应用中，我们通常感兴趣的是方程 (12) 中右侧的重加权，这会导致其他散度度量（见 Song et al., 2021a）。

上面提到的第一个项是测量匹配损失（即重建损失），它是通过定义 $p(y|x_0)$ 获得的，而第二个项是通过将KL散度的项展开成评分匹配目标获得的，如（Vahdat et al., 2021; Song et al., 2021a）中所示， $\tilde{\omega}(t) = \frac{\beta(t)}{2}$ 是基于最大似然的加权。

第二个项可以视为由扩散先验施加的评分匹配正则化项。该积分在扩散轨迹上进行评估，即 $x_t \sim q(x_t | y)$ 对于 $\in [0, T]$ ，这是应用于 $q(x_0 | y)$ 的前向扩散过程。由于 $q(x_0 | y)$ 采用简单的高斯形式，我们可以证明 $q(x_t | y)$ 也是高斯形式，表示为 $q(x_t | y) = \mathcal{N}(\alpha_t \mu, \alpha_t^2 \sigma^2 + \sigma_t^2)$ （见 Vahdat et al., 2021）。因此，评分函数 $\nabla_{x_t} \log q(x_t | y)$ 可以通过解析方法计算。

假设变分分布的方差是一个接近于零的小常数（即 $\sigma \approx 0$ ），那么方程 (7) 中的优化问题可以进一步简化为：
$\text{min}_{\mu} \left\{ \| y - f(\mu) \|^2_{\text{recon}} + \int_0^T 2\omega(t) \frac{\sigma_v^2}{\sigma_t^2} \| \epsilon_\theta(x_t; t) - \epsilon \|^2_{2} \, dt \right\} \tag{8}$

其中 $x_t = \alpha_t \mu + \sigma_t \epsilon$ 。简而言之，解决上述优化问题将会找到一个图像 $\mu$ ，使得在测量模型 $f$ 下重建观测 $y$ 的效果最好，同时在正则化项施加的先验下具有高的似然性。

Remark [无噪声观测] 如果观测噪声 $\sigma_v = 0$ ，则从方程 (6) 可知，重建项简化为一个硬约束，可以表示为指示函数 $\mathbb{I}_{y = f(\mu)}$ ，当 $f(\mu)$ 时为零，否则为无穷大。然而，在实践中，我们仍然可以使用方程 (7) 并设置一个较小的 $\sigma_v$ 作为近似。

Sampling As Stochastic Optimization

正则化的评分匹配目标（方程 (8)）使我们能够将采样问题公式化为优化问题，从而解决逆问题。实质上，不同扩散步骤上的集成损失支持将随机优化作为一种适合的采样策略。

然而，在实际应用中，权重项 $\tilde{\omega}(t)$ 的选择在优化问题的成功中起着关键作用。多个关于训练扩散模型的先前工作（Ho et al., 2020; Vahdat et al., 2021; Karras et al., 2022; Choi et al., 2022）发现，对 $t$ 上目标函数的重加权在不同扩散步骤中平衡内容与细节方面发挥了关键作用，我们在本研究中也观察到了这一点（更多信息见第 4.3 节）。此外，方程 (8) 中标记为“reg”的第二项需要通过预训练的评分函数进行反向传播，这可能会导致优化过程缓慢和不稳定。接下来，我们考虑一种通用的加权机制 $\tilde{\omega}(t) = \frac{\beta(t) \omega(t)}{2}$ ，其中 $\omega(t)$ 是一个正值函数。我们将展示，如果选择的权重使得 $\omega(0) = 0$ ，则可以高效地计算正则化项的梯度，而不需要通过预训练的评分函数进行反向传播。

命题 2. 如果 $\omega(0) = 0$ 且 $\sigma = 0$ ，则评分匹配正则化的梯度为：
$\nabla_\mu \text{reg}(\mu) = \mathbb{E}_{t \sim U[0, T], \epsilon \sim \mathcal{N}(0, I)} \left[ \lambda_t \left( \epsilon_\theta(x_t; t) - \epsilon \right) \right]$
其中 $\lambda_t = \frac{2T \sigma_v^2 \alpha_t}{\sigma_t} \frac{d\omega(t)}{dt}$ 。

一阶随机优化器。 基于命题 2 中评分匹配正则化梯度的简单表达式，我们可以将时间视为一个均匀随机变量。因此，通过对时间和噪声进行随机采样，我们可以轻松获得梯度的无偏估计。因此，可以应用一阶随机优化方法来搜索 $\mu$ 。我们在算法 1 中列出了迭代步骤。注意，我们基于瞬时梯度定义每个时间步的损失，这可以视为线性损失的梯度。我们引入了 (sg) 符号，表示在优化过程中评分不进行反向传播。第 D.4 节中的消融实验表明，像 DDPM 和 DDIM 等标准反向扩散采样器中从 $t = T$ 到 $t = 0$ 的时间递减在实践中表现优于随机时间采样。

Remark [非零扩散]. 注意，命题 2 为简化起见推导了零扩散情况（即 $\sigma = 0$ ）的梯度。对非零扩散的扩展请参见附录 A.3。

Regularization By Denoising

请注意，我们的变分采样器与 正则化通过去噪（RED） 框架（Romano et al., 2016）具有相似之处。实质上，RED 是一种灵活的方法，用于利用给定的去噪引擎来处理一般的逆问题。RED 正则化有效地根据某种图像自适应的拉普拉斯先验来促进图像的平滑。为了更好地理解与 RED 的关系，让我们看一下我们提出的变分采样器在每个时间步的损失。从命题 2 中的梯度表达式来看，形成时间步 $t$ 的损失是有用的：

$\| y - f(\mu) \|^2 + \lambda_t \left( \text{sg}(\epsilon_\theta(x_t; t) - \epsilon) \right)^T \mu \tag{9}$

这个正则化项与 RED 相似。较小的正则化意味着要么扩散过程达到一个固定点，即 $\epsilon_\theta(x_t; t) = \epsilon$ ，要么残差仅包含噪声，而不再对图像贡献任何信息。然而，需要注意的是，这里不需要对称雅可比矩阵或原始 RED 中所需的假设，因为公式 9 的梯度自然是 $\epsilon_\theta(x_t; t) - \epsilon$ （注意停止梯度操作 sg）。尽管如此，RED 与我们的方法有根本的不同，包括扩散先验的生成性质，以及我们使用整个扩散轨迹进行正则化的事实。尽管如此，我们相信这是一个重要的联系，可以利用 RED 的工具来改进扩散模型在逆问题中的采样。同时值得提到的是，早期的研究（Reehorst & Schniter, 2018）也基于单个（确定性）去噪器探索了 RED 和评分匹配之间的联系。

Weighting Mechanism

时间步加权在训练扩散模型中起着关键作用。不同的时间步负责生成不同的结构，从最后的时间步生成大尺度内容到早期时间步生成精细的细节（Choi et al., 2022）。因此，为了有效的正则化，关键是要适当地调整算法 1 中的去噪器权重 $\{ \lambda_t \}$ 。我们观察到，公式 9 中的正则化项对噪声调度非常敏感。例如，在方差保持的情况下，当 $t$ 接近零时，正则化项会剧烈增加。

为了减轻正则化对权重的敏感性，更希望在信号域中定义正则化，这与拟合项兼容，如下所示：

$\| y - f(\mu) \|^2 + \lambda \|\text{sg}(\mu - \hat{\mu}_t)\|_J$

其中， $\lambda$ 是一个超参数，用于平衡先验和似然之间的权衡，而 $\hat{\mu}_t$ 是干净数据的最小均方误差（MMSE）预测器。这里，我们希望常数 $\lambda$ 来控制偏差（对观察的拟合）和方差（对先验的拟合）之间的权衡。为了得出公式 10 中的可解释损失，需要重新缩放噪声残差项 $\epsilon_\theta(x_t; t) - \epsilon$ 。

回顾一下，时间步 $t$ 的去噪器观察到 $x_t = \alpha_t x_0 + \sigma_t \epsilon$ 。MMSE 估计器还提供去噪为：

$\hat{\mu}_t = \mathbb{E}_{\mu | x_t} \left[ \mu \mid x_t \right] = \frac{1}{\alpha_t} \left( x_t - \sigma_t \epsilon_\theta(x_t; t) \right) \tag{10}$