ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting

最新推荐文章于 2025-03-30 23:57:49 发布

....。...

最新推荐文章于 2025-03-30 23:57:49 发布

阅读量1.4k

点赞数 22

分类专栏： Diffusion Model 文章标签：计算机视觉人工智能深度学习图像处理

本文链接：https://blog.csdn.net/qq_42208244/article/details/138399579

版权

Diffusion Model 专栏收录该内容

15 篇文章

订阅专栏

ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting

Abstract
Introduction
Methodology
- Model Design
- Noise Schedule
Experiments
- Testing Datasets
- Model Analysis

Abstract

基于扩散的图像超分辨率(SR)方法由于需要数百甚至数千个采样步骤，导致推理速度较低。现有的加速采样技术不可避免地会在一定程度上牺牲性能，导致SR结果过于模糊。为了解决这个问题，我们提出了一种新颖有效的SR扩散模型，该模型显著减少了扩散步骤的数量，从而消除了推理过程中对后加速的需求及其相关的性能下降。我们的方法构建了一个马尔可夫链，通过移动高分辨率图像和低分辨率图像之间的残差来实现高分辨率图像和低分辨率图像之间的转换，大大提高了转换效率。此外，还设计了一套复杂的噪声控制方案，以灵活控制扩散过程中的换档速度和噪声强度。大量的实验表明，即使只有15个采样步骤，所提出的方法在合成和真实数据集上的性能也优于或至少与当前最先进的方法相当。

主要问题：推理速度慢
idea: 主要想法是将 $x_T$ 换为 $y_0$ ，然后通过扩散模型采样得到 $x_0$ 。方法是把这个残差 $H R - L R$ 分配给整个采样阶段，然后构建新的采样过程。

Introduction

图像超分辨率（SR）是低层次视觉中的一个基本问题，其目标是从给定的低分辨率（LR）图像中恢复出高分辨率（HR）图像。由于现实世界场景中退化模型的复杂性和未知性，这个问题是极其不适定的。扩散模型作为一种新出现的生成模型，在图像生成方面取得了前所未有的成功。

扩散模型应用于图像超分的模式：

一种常见的方法涉及将LR图像插入当前扩散模型的输入中（例如DDPM），并从头开始在SR的训练数据上重新训练模型。
另一种流行的方法是使用无条件预训练的扩散模型作为先验，并修改其逆向路径以生成预期的HR图像。

缺陷：

这两种策略都继承了DDPM背后的马尔可夫链，这在推理过程中可能效率低下，通常需要数百甚至数千个采样步骤。尽管已经开发了一些加速技术来压缩推理中的采样步骤，但它们不可避免地导致性能显著下降，结果过于平滑，如图1.所示，其中采用了DDIM算法来加速推理。因此，需要设计一种新的扩散模型用于SR，既能实现效率又能保证性能，而不是牺牲其中之一。

在这里插入图片描述

重新审视图像生成背景下的扩散模型。

在正向过程中，它建立了一个马尔可夫链，逐渐将观察到的数据转变为预设的先验分布，通常是标准高斯分布，经过大量步骤。随后，通过从先验分布中采样噪声图并将其输入到马尔可夫链的逆向路径中，可以实现图像生成。

虽然高斯先验非常适合图像生成任务，但在SR中可能不是最佳选择，由于LR图像是可用的。

作者认为，对于SR任务来说，合理的扩散模型应该从一个基于LR图像的先验分布开始，使其能够迭代地从其LR对应物中恢复HR图像，而不是从高斯白噪声开始。 此外，这样的设计可以减少采样所需的扩散步骤数量，从而提高推理效率。

基于上述动机提出了一个高效的扩散模型，涉及一个更短的马尔可夫链，用于在HR图像和其对应的LR图像之间过渡。马尔可夫链的初始状态收敛到HR图像的近似分布，而最终状态收敛到LR图像的近似分布。为了实现这一点，我们设计了一个转换核，逐步移动它们之间的残差。这种方法比现有的基于扩散的SR方法更高效，因为残差信息可以在几十个步骤内快速传递。此外，我们的设计还允许对变分下界进行分析和简洁的表达，简化了训练优化目标的归纳。基于这个扩散核，我们进一步开发了一个高度灵活的噪声调度，控制每一步中残差的移动速度和噪声强度。通过调整其超参数，这个调度促进了恢复结果的保真度-真实性权衡。

Methodology

在本节中，介绍了一个为SR 定制的扩散模型ResShift。LR图像和HR图像分别表示为 $y_0$ 和 $x_0$ 。此外，我们假设 $y_0$ 和 $x_0$ 具有相同的空间分辨率，这可以很容易地通过在必要时使用最近邻插值对LR图像 $y_0$ 进行预上采样来实现。

在这里插入图片描述

Model Design

Forward Process.
我们将 LR 和 HR 图像之间的残差记为 $e_0$ ，即 $e_0=y_0−x_0$ 。核心思想是通过一个长度为 $T$ 的马尔可夫链，逐渐移动它们的残差 $e_0$ ，从 $x_0$ 迁移到 $y_0$ 。首先引入一个位移序列 $\{η_t\}^T_ {t =1}$ ，它随时间步长 $t$ 单调增加，满足 $η_1→0$ 和 $η_T→1$ 。然后根据这一移位顺序推导出过渡分布:
$q(x_t|x_{t-1}, y_0)=\mathcal N(x_t; x_{t-1}+\alpha_te_0, k^2\alpha_tI), \quad t=1,...,T \tag{1}$

其中 $α_t = η_t−η_{t−1}$ ，当 t > 1时, $α_1 = η_1$ ，k 为控制噪声方差的超参数， $I$ 为单位矩阵。我们证明了任意时间步长 t 的边际分布是解析可积的，即
$q(x_t|x_{0}, y_0)=\mathcal N(x_t; x_{0}+\eta_te_0, k^2\eta_tI),\quad t=1,...,T \tag{2}$

Eq.(1)中给出的过渡分布的设计基于两个主要原则。
第一个原理是关于标准差，即 $k\sqrt \alpha_t$ ，其目的是促进 $x_t$ 与 $x_{t−1}$ 之间的平滑过渡。这是因为假设图像数据落在[0,1]范围内，则 $x_t$ 与 $x_{t−1}$ 之间的期望距离可以用 $\sqrt{\alpha_t}$ 来限定，即:
$max[(x_0 + η_te_0) − (x_0 + η_{t−1}e_0)] = max[α_te_0] < α_t < \sqrt α_t, \tag{3}$

其中max[·]表示逐像素最大化操作。引入超参数 k 来增加设计的灵活性。

第二个原理是关于均值参数，即 $x_0 +α_te_0$ ，它可以推导出Eq.(2)中的边缘分布。此外， $x_1$ 和 $x_T$ 的边缘分布收敛于 $δ_{x_0}(·)$ 和 $\mathcal N(·;y_0,k^2I)$ ，它们分别作为HR图像和LR图像的两个近似分布。通过以这种方式构建马尔可夫链，可以通过给定LR图像 $y_0$ 的反向采样来处理SR任务。

$δ_µ(·)$ denotes the Dirac distribution centered at $µ$ .

Derivation of Eq. (2):
根据方程 (1) 的转移分布， $x_t$ 可以通过以下重参数化技巧进行采样：
$x_t = x_{t-1} + \alpha_t e_0 + \kappa \sqrt{\alpha_t} \xi_t, \tag{11}$

其中， $\xi_t \sim N(x|0, I)$ ，对于 $t > 1$ ， $\alpha_t = \eta_t - \eta_{t-1}$ 且 $\alpha_1 = \eta_1$ 。

递归应用这一采样技巧后，可以建立 $x_t$ 和 $x_0$ 之间的关系，如下所示：
$x_t = x_0 + \sum_{i=1}^{t} \alpha_i e_0 + \kappa \sum_{i=1}^{t} \sqrt{\alpha_i} \xi_i = x_0 + \eta_t e_0 + \kappa \sum_{i=1}^{t} \sqrt{\alpha_i} \xi_i,\tag{12}$

其中 $\xi_i \sim N(x|0, I)$ 。

进一步合并 $\xi_1, \xi_2, \cdots, \xi_t$ 并简化方程 (12) 如下：
$x_t = x_0 + \eta_t e_0 + \kappa \sqrt{\eta_t} \xi_t.\tag{13}$

Reverse Process.
LR图像和HR图像分别表示为 $y_0$ 和 $x_0$
反向过程旨在通过以下公式估计后验分布 $p(x_0|y_0)$ ：
$p(x_0|y_0) = \int p(x_T|y_0) \prod_{t=1}^{T} p_\theta(x_{t-1}|x_t, y_0) dx_{1:T},\tag{4}$
其中 $p(x_T|y_0) \approx N(x_T|y_0, \kappa^2I)$ ， $p_\theta(x_{t-1}|x_t, y_0)$ 是从 $x_t$ 到 $x_{t-1}$ 的逆转移核，具有可学习的参数 $\theta$ .
假设 $p_\theta(x_{t-1}|x_t, y_0) = N(x_{t-1}; \mu_\theta(x_t, y_0, t), \Sigma_\theta(x_t, y_0, t))$ 。通过最小化负证据下界来优化参数 $\theta$ ，即：

$\min_{\theta} \sum_{t} \mathcal D_{\text{KL}} \left[ q(x_{t-1}|x_t, x_0, y_0) \parallel p_\theta(x_{t-1}|x_t, y_0) \right],\tag{5}$

其中， $D_{\text{KL}}[·\parallel·]$ 表示 Kullback-Leibler (KL) 散度。结合方程 (1) 和方程 (2)，方程 (5) 中的目标分布 $q(x_{t-1}|x_t, x_0, y_0)$ 可以以下面的显式形式表示：
$q(x_{t-1}|x_t, x_0, y_0) = N\left( x_{t-1} \middle| \frac{\eta_{t-1}}{\eta_t} x_t + \frac{\alpha_t}{\eta_t} x_0, \kappa^2 \frac{\eta_{t-1}}{\eta_t} \alpha_t I \right),\tag{6}$
考虑到方差参数与 $x_t$ 和 $y_0$ 无关，我们将 $\Sigma_\theta(x_t, y_0, t) = \kappa^2 \frac{\eta_{t-1}}{\eta_t} \alpha_t I$ 设定为常量。至于均值参数 $\mu_\theta(x_t, y_0, t)$ ，其重新参数化如下：
$\mu_\theta(x_t, y_0, t) = \frac{\eta_{t-1}}{\eta_t} x_t + \frac{\alpha_t}{\eta_t} f_\theta(x_t, y_0, t).\tag{7}$

其中， $f_\theta$ 是一个带有参数 $\theta$ 的深度神经网络，来预测 $x_0$ 。我们探索了不同的均值参数 $\mu_\theta$ 的参数化形式，发现方程 (7) 展现出更好的稳定性和性能。基于方程 (7)，我们简化了方程 (5) 中的目标函数，如下所示：
$\min_{\theta} \sum_t w_t \|f_\theta(x_t, y_0, t) - x_0\|_2^2, \tag{8}$

其中 $w_t = \frac{\alpha_t}{2\kappa^2 \eta_t \eta_{t-1}}$ .
在实践中，我们经验性地发现，忽略权重 $w_t$ 会显著提高性能，这与 Ho 等人【2】的结论一致。

对于分布 $q(x_{t−1}|x_t,x_0)$ 和 $p_θ(x_{t−1}|x_t)$ ，两者方差相同，每一个 KL散度可以简化为：
$D_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))=\frac{1}{2\Sigma_t^2}||\mu_t(x_t,x_0)-\mu_\theta(x_t,t)||^2+C$

在这里插入图片描述
Extension to Latent Space.
为了减轻训练中的计算开销，我们将上述模型移到VQGAN [22]的潜在空间，在那里原始图像被空间压缩4倍。这不需要对我们的模型进行任何修改，除了用它们的潜在代码替换 $x_0$ 和 $y_0$ 。如图2所示.

Noise Schedule

所提出的方法使用超参数 $κ$ 和一个移位序列 $\{η_t\}^T_{t=1}$ 来确定扩散过程中的噪声格式。具体而言，超参数 $κ$ 调节过渡期间的整体噪声强度，其对性能的影响在第4.2节中进行了经验讨论。
接下来的论述主要围绕移位序列 $\{η_t\}^T_{t=1}$ 的构建展开。

$q(x_t|x_{0}, y_0)=\mathcal N(x_t; x_{0}+\eta_te_0, k^2\eta_tI),\quad t=1,...,T \tag{2}$

方程(2)表明，状态 $x_t$ 中的噪声水平与 $\sqrt \eta_t$ 成正比，并带有一个缩放因子 $κ$ 。这个观察结果促使我们专注于设计 $\sqrt \eta_t$ 而不是 $η_t$ 。Song和Ermon [23] 表明， $κ\sqrt η_1$ 应足够小（例如，在LDM [11]中为0.04），以确保 $q(x_1|x_0, y_0) ≈ q(x_0)$ 。结合 $η_1 → 0$ 的额外约束条件，我们将η1设置为 $(0.04/ κ)^{2}$ 和0.001之间的最小值。对于最后一步 $T$ ，我们将 $η_T$ 设置为0.999，确保 $η_T → 1$ 。对于中间的时间步，即 $\in [2, T − 1]$ ，我们提出了一种非均匀几何进度 (non-uniform geometric schedule) 的 $\sqrt \eta_t$ ，如下所示：
$\sqrt η_t = \sqrt η_1 × b^{β_t}_0, t = 2, · · · , T−1, \tag{9}$
其中：
$\beta_t = \left(\frac{t - 1}{T - 1}\right)^p \times (T - 1), b_0 = \exp \left(\frac{1}{2(T - 1)}\log \frac{\eta_T}{\eta_1}\right). \tag{10}$

需要注意的是， $\beta_t$ 和 $b_0$ 的选择基于以下假设： $\beta_1 = 0$ 、 $\beta_T = T - 1$ ，并且 $\sqrt{\eta_T} = \sqrt{\eta_1} \times b_0^{T-1}$ 。超参数 $p$ 控制 $\sqrt{\eta_t}$ 的增长率，如图3(h)所示。

这种噪声格式在三个关键方面表现出高度的灵活性。
首先，对于较小的κ值，最终状态 $x_T$ 收敛到LR图像周围的扰动，如图3( c )-( d )所示。与结束于高斯噪声的损坏相比，这种设计显著缩短了马尔可夫链的长度，从而提高了推理效率。
其次，超参数 $p$ 提供了对移位速度的精确控制，使得在超分辨率结果中实现了保真度与逼真度之间的权衡，这在第4.2节中进行了分析。
第三，通过设置κ = 40和p = 0.8，我们的方法实现了与LDM [11]非常相似的扩散过程。这在扩散过程中的视觉结果（如图3(e)-(f)所示）中得到了清楚的展示，并通过相对噪声强度的比较（如图3(g)所示）得到了进一步支持。

Experiments

Testing Datasets

我们合成了一个测试数据集，其中包含从 ImageNet【50】验证集中随机选择的3000张图像，基于常用的degradation model，即 $y = (x * k) ↓ + n$ ，其中 $k$ 是模糊核， $n$ 是噪声， $y$ 和 $x$ 分别表示低分辨率（LR）图像和高分辨率（HR）图像。为了全面评估 ResShift 的性能，我们考虑了更复杂的模糊核类型、下采样操作和噪声类型。

有关这些详细设置可以在附录 B.1 中找到。

需要注意的是，我们从 ImageNet【50】中选择了 HR 图像，而不是超分辨率（SR）领域常用的数据集，如 Set5【54】、Set14【55】和 Urban100【56】。这种设置的原因在于，这些数据集只包含很少的源图像，无法充分评估各种方法在不同降级类型下的性能。为方便起见，我们将此数据集命名为 ImageNet-Test。

采用了两个真实世界的数据集来评估 ResShift 的有效性。第一个是 RealSR【57】，包含由 Canon 5D3 和 Nikon D810 相机拍摄的100张真实图像。此外，我们还收集了另一个名为 RealSet65 的真实世界数据集。它包含了最近文献【19, 58, 59, 60, 61】中广泛使用的35张 LR 图像。剩下的30张图像是我们自己从互联网上获取的。

对比方法。
我们将 ResShift 的效果与七种最新的超分辨率（SR）方法进行了比较，包括 ESRGAN【62】、RealSR-JPEG【63】、BSRGAN【18】、RealESRGAN【19】、SwinIR【20】、DASR【21】和 LDM【11】。

需要注意的是，LDM 是一种基于扩散的 SR 方法，拥有 1000 个扩散步骤。为了公平比较，我们使用 DDIM【16】加速 LDM 至与 ResShift 相同的步骤数，并将其表示为 “LDM-A”（其中 “A” 表示推理步骤数）。在 DDIM 中，超参数 η 被设置为 1，因为这个值可以生成最真实的恢复图像。

指标。
我们使用五个指标评估各种方法的性能，包括 PSNR、SSIM【64】、LPIPS【65】、MUSIQ【66】和 CLIPIQA【67】。
后两个是专门设计用于评估图像真实性的无参考指标。特别是 CLIPIQA，利用了在大规模数据集（即 Laion400M【69】）上预训练的 CLIP【68】模型，因此表现出很强的泛化能力。在真实世界的数据集上，我们主要依赖 CLIPIQA 和 MUSIQ 作为评估指标来比较不同方法的性能。

Model Analysis

我们在不同的扩散步骤数 $T$ 和超参数 $p$ (在公式 (10) 中) 以及 $κ$ (在公式 (1) 中) 的设置下分析了 ResShift 的性能。

$\sqrt η_t = \sqrt η_1 × b^{β_t}_0, t = 2, · · · , T−1, \tag{9}$
$\beta_t = \left(\frac{t - 1}{T - 1}\right)^p \times (T - 1), b_0 = \exp \left(\frac{1}{2(T - 1)}\log \frac{\eta_T}{\eta_1}\right). \tag{10}$

扩散步骤 $T$ 和超参数 $p$ 。
在公式 (1) 中提出的转移分布显著减少了马尔可夫链中的扩散步骤 $T$ 。超参数 $p$ 允许灵活控制在转移过程中残差漂移的速度。表 1 总结了在不同 $T$ 和 $p$ 配置下 ResShift 在 ImageNet-Test 数据集上的性能。我们可以看到， $T$ 和 $p$ 都在超分辨率结果的保真度（通过 PSNR、SSIM 和 LPIPS 等参考指标测量）与真实性（通过 CLIPIQA 和 MUSIQ 等无参考指标测量）之间呈现了权衡。以 $p$ 为例，当 $p$ 增加时，参考指标有所改善，但无参考指标则有所恶化。此外，图 4 中的视觉比较显示，当 $p$ 取值较大时，会抑制模型想象出更多图像细节的能力，导致输出结果模糊。

超参数 $κ$ 。
公式 (2) 显示了 $κ$ 决定了状态 $x_t$ 中的噪声强度。我们在表 1 中报告了 $κ$ 对 ResShift 性能的影响。结合图 4 中的可视化结果发现，无论是过大还是过小的 $κ$ 值，都会使得恢复的结果变得平滑，尽管它们在 PSNR 和 SSIM 指标上表现良好。当 $κ$ 处于 [1.0, 2.0] 范围时，我们的方法在 CLIPIQA 和 MUSIQ 指标上达到了最现实的质量，这在实际应用中更为理想。因此，我们在此工作中将 $κ$ 设置为 2.0。

在这里插入图片描述

效率比较。
为了提高推理效率，最好限制扩散步骤的数量 $T$ 。然而，这会导致恢复的高分辨率图像的真实感下降。为了折中，可以将超参数 $p$ 设置为相对较小的值。因此，我们将 $T$ 设置为 15， $p$ 设置为 0.3，得到我们模型的命名为 ResShift。表 2 显示了 ResShift 与最新技术 (SotA) 方法 LDM [11] 和其他三种基于 GAN 的方法在 ImageNet-Test 数据集上的效率和性能比较。结果显然表明，所提出的 ResShift 在 PSNR 和 LPIPS [65] 方面优于 LDM [11]，并且在计算效率上与 LDM-100 相比有了显著的四倍提升。尽管 ResShift 在缓解基于扩散的超分辨率方法的效率瓶颈方面表现出相当大的潜力，但由于其迭代采样机制，速度仍然落后于当前的 GAN 方法。因此，进一步优化所提出的方法以解决这一限制仍然是我们未来工作的重点。
在这里插入图片描述

Perception-Distortion Trade-off.
在超分辨率（SR）领域中，存在一种被称为感知-失真权衡（perception-distortion trade-off）的现象[70]。具体而言，增强恢复模型的生成能力，例如提高扩散方法的采样步骤数量或放大对抗损失的权重，将会导致保真度的下降，同时提高恢复图像的真实性。这主要是因为具有强大生成能力的恢复模型倾向于产生更多的高频图像结构，从而偏离了实际的真实情况。

为了对我们的 ResShift 与当前的最先进扩散方法 LDM 进行全面比较，我们在图 7 中绘制了它们的感知-失真曲线，其中感知和失真分别通过 LPIPS 和均方误差（MSE）来衡量。这一图表反映了 ResShift 和 LDM 在不同扩散步骤数量下的感知质量和重建保真度，即 10、15、20、30、40 和 50 步。可以观察到，我们的 ResShift 的感知-失真曲线始终位于 LDM 曲线之下，表明它在平衡感知和失真方面具有更优的能力。

在这里插入图片描述

Evaluation on Synthetic Data
我们在ImageNet测试数据集上对所提出的方法与最近的SotA方法进行了比较分析，如表3和图5所示。

基于此评价，有几个重要的c 结论可以如下：
i) ResShift在所有五个指标上表现出优越或至少可比的，肯定了所提方法的有效性和优越性。
ii) Th ResShift获得的PSNR和SSIM值表明它能够更好地保持对地面真实图像的保真度。这一优势主要来自于我们精心设计的扩散模型，它从LR图像的细微扰动开始，而不是LDM中传统的高斯白噪声假设。
iii)考虑到LPIPS和CLIPIQA的指标，它们衡量了对恢复图像的感知质量和真实性，ResShift也明显优于现有的方法。此外，在MUSIQ方面，我们的方法取得了与最近的SotA方法相当的性能。总之，所提出的重移在保持保真度的同时产生更真实的结果方面显示出显著的能力。这对于SR的任务是非常重要的。

在这里插入图片描述