SRDiff: Single image super-resolution with diffusion probabilistic models 2022 Neurocomputing

JennnyZhang

于 2024-09-06 17:14:13 发布

阅读量855

点赞数 24

分类专栏： Diffusion 论文精读文章标签：人工智能计算机视觉深度学习 Diffusion 扩散模型 python

本文链接：https://blog.csdn.net/qq_53826699/article/details/141960906

版权

论文精读同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

Diffusion

6 篇文章 0 订阅

订阅专栏

一、Motivation

二、Contribution

三、Method

3.1 Conditional Noise Predictor

3.2 LR Encoder

3.3 Training and Inference

1. Training

2. Inference

四、Experiment

4.1 Experimental Settings

SRDiff: Single image super-resolution with diffusion probabilistic models - ScienceDirect

GitHub - LeiaLi/SRDiff

一、Motivation

过平滑问题：传统的PSNR导向方法的目标是优化全局像素级别的差异，往往导致生成的图像细节丢失，变得过于平滑。

模式崩溃：GAN驱动的方法容易陷入模式崩溃，生成的图像缺乏多样性，无法覆盖所有可能的结果。

模型足迹过大：流基方法通常需要大量参数，导致模型体积庞大，训练成本高。

因此，文章提出了一种新颖的扩散概率模型（SRDiff），旨在通过逐步将高斯噪声转化为超分辨率图像，从而生成多样且高质量的超分辨率结果，同时保持较小的模型规模和高效的训练过程。

二、Contribution

我们提出了一种新颖的单幅图像超分辨率（SISR）扩散概率模型（SRDiff），旨在解决之前模型中的过平滑、模式崩溃和模型体积过大等问题。具体而言：

信息提取：SRDiff利用预训练的低分辨率（LR）编码器将LR图像转换为隐藏条件。

图像生成：通过条件噪声预测器，SRDiff迭代地恢复高分辨率（HR）图像。

加速收敛：引入残差预测，通过计算HR和LR图像之间的差异作为初始输入，帮助模型专注于恢复高频细节。

三、Method

如图 2所示，SRDiff 建立在包含两个过程的 T 步扩散模型之上：扩散过程和反向过程。我们没有直接预测 HR 图像，而是应用残差预测来预测 HR 图像 xH 和上采样 LR 图像 x Lð Þ 之间的差异，并将差异表示为输入残差图像 x0。

3.1 Conditional Noise Predictor

条件噪声预测器的主要目标是从潜在变量中预测添加的高斯噪声，以便逐步恢复高分辨率（HR）图像。
该预测器采用了U-Net架构，能够有效捕捉图像的局部和全局特征（U-Net的跳跃连接设计允许模型同时利用低层和高层特征，增强了细节恢复的能力）。
条件噪声预测器的输入包括当前的潜在变量、扩散时间步和通过低分辨率编码器生成的隐藏条件；输出是对当前潜在变量中噪声的估计，这些估计将在反向过程中用于逐步生成HR图像。
在训练阶段，模型通过最小化预测噪声与实际添加噪声之间的差异来优化噪声预测的准确性。

3.2 LR Encoder

LR编码器的主要任务是将输入的低分辨率图像转化为隐藏条件，以提取有效的特征信息，为后续的高分辨率图像生成提供支持。编码器生成的隐藏条件包含了关于输入图像的关键信息，这些信息在条件噪声预测器中被进一步使用，以实现更精确的噪声预测和高分辨率图像生成。
该编码器采用了基于残差网络（ResNet）的结构，能够捕捉图像中的丰富特征，并通过多层卷积操作有效提取低分辨率图像的特征。
LR编码器接收低分辨率图像作为输入，并输出经过编码后的特征表示，这些特征为模型的反向过程提供了必要的信息。
编码器的训练与整个模型的训练过程相结合，通过优化损失函数来提高特征提取的效果，从而增强最终生成图像的质量。

3.3 Training and Inference

1. Training

目标：训练的主要目标是优化条件噪声预测器和低分辨率编码器，以提高模型生成高分辨率（HR）图像的能力。
损失函数：使用变分下界（ELBO）作为损失函数来进行训练。通过最小化预测噪声与实际添加噪声之间的差异，来提升噪声预测的准确性。
数据准备：训练过程中，模型使用配对的低分辨率（LR）和高分辨率（HR）图像作为输入。通过对LR图像进行多次扩散处理，生成相应的噪声数据。
优化算法：采用标准的优化算法（如Adam）来更新模型参数，确保训练过程的稳定性和收敛性。

2. Inference

初始化：在推理阶段，首先从高斯分布中随机采样一个潜在变量，作为生成HR图像的起始点。
逐步生成：通过反向过程，模型逐步将潜在变量转化为HR图像。每一步都使用条件噪声预测器预测当前步骤中应去除的噪声，并更新潜在变量。
输入信息：在每个步骤中，条件噪声预测器使用当前的潜在变量、扩散时间步和通过LR编码器生成的隐藏条件，以生成更准确的输出。
输出结果：经过多个反向步骤后，模型生成的HR图像将作为推理结果输出

四、Experiment

4.1 Experimental Settings

1. Datasets

CelebFaces Attributes Dataset (CelebA)

Z. Liu, P. Luo, X. Wang, X. Tang, Deep learning face attributes in the wild, in: ICCV, 2015..

DIV2K 和 Flickr2K dataset

R. Timofte, S. Gu, J. Wu, L. Van Gool, Ntire 2018 challenge on single image super-resolution: methods and results, in: CVPR Workshops, 2018..

2. Compared Methods

PSNR导向方法、GAN驱动方法和流基方法

4.2 Performance

挺常规的，不写了，这篇文章总体来说方法和实验部分都较为常规，所以只能发个二区吧

五、Conclusion

在本文中，我们提出了 SRDiff，它是 SISR 的第一个基于扩散的模型，据我们所知。我们的工作首先利用马尔可夫链将HR图像转换为简单分布中的潜在变量。然后，我们进行了反向过程，该过程通过使用以 LR 信息为条件的噪声预测器迭代地去噪潜在变量来生成 SR 预测。为了加速收敛过程并稳定训练过程，SRDiff 引入了残差预测。我们对人脸和一般数据集的广泛实验表明，SRDiff 可以生成多样化和逼真的 SR 图像。此外，理论和性能都表明，我们的方法能够分别解决面向 PSNR 的方法、GAN 驱动方法和基于流的方法中出现的过度平滑、模式崩溃和大量占用问题。此外，SRDiff 允许灵活的图像处理，包括潜在空间插值和内容融合。我们的方法生成的多样化 SR 结果可以为用户根据需求选择提供更多参考。我们的方法揭示了潜在的新研究方向。未来，我们将进一步提高所开发的基于扩散的SISR模型的性能，加快推理过程。我们还将我们的工作扩展到更多的图像恢复任务（例如图像去噪、去模糊和去雾），以验证扩散模型在图像恢复领域的潜力。