SRDiff: Single image super-resolution with diffusion probabilistic models 2022 Neurocomputing

目录

一、Motivation

二、Contribution

三、Method

3.1 Conditional Noise Predictor

3.2 LR Encoder

3.3 Training and Inference

1. Training

2. Inference

四、Experiment

4.1 Experimental Settings

1. Datasets

2. Compared Methods

4.2 Performance

五、Conclusion


SRDiff: Single image super-resolution with diffusion probabilistic models - ScienceDirect
GitHub - LeiaLi/SRDiff

一、Motivation

过平滑问题:传统的PSNR导向方法的目标是优化全局像素级别的差异,往往导致生成的图像细节丢失,变得过于平滑。

模式崩溃:GAN驱动的方法容易陷入模式崩溃,生成的图像缺乏多样性,无法覆盖所有可能的结果。

模型足迹过大:流基方法通常需要大量参数,导致模型体积庞大,训练成本高。

因此,文章提出了一种新颖的扩散概率模型(SRDiff),旨在通过逐步将高斯噪声转化为超分辨率图像,从而生成多样且高质量的超分辨率结果,同时保持较小的模型规模和高效的训练过程。

二、Contribution

我们提出了一种新颖的单幅图像超分辨率(SISR)扩散概率模型(SRDiff),旨在解决之前模型中的过平滑、模式崩溃和模型体积过大等问题。具体而言:

信息提取:SRDiff利用预训练的低分辨率(LR)编码器将LR图像转换为隐藏条件。

图像生成:通过条件噪声预测器,SRDiff迭代地恢复高分辨率(HR)图像。

加速收敛:引入残差预测,通过计算HR和LR图像之间的差异作为初始输入,帮助模型专注于恢复高频细节。

三、Method

如图 2所示,SRDiff 建立在包含两个过程的 T 步扩散模型之上:扩散过程反向过程。我们没有直接预测 HR 图像,而是应用残差预测来预测 HR 图像 xH 和上采样 LR 图像 x Lð Þ 之间的差异,并将差异表示为输入残差图像 x0。

3.1 Conditional Noise Predictor

  • 条件噪声预测器的主要目标是从潜在变量中预测添加的高斯噪声,以便逐步恢复高分辨率(HR)图像。
  • 该预测器采用了U-Net架构,能够有效捕捉图像的局部和全局特征(U-Net的跳跃连接设计允许模型同时利用低层和高层特征,增强了细节恢复的能力)。
  • 条件噪声预测器的输入包括当前的潜在变量、扩散时间步和通过低分辨率编码器生成的隐藏条件;输出是对当前潜在变量中噪声的估计,这些估计将在反向过程中用于逐步生成HR图像。
  • 在训练阶段,模型通过最小化预测噪声与实际添加噪声之间的差异来优化噪声预测的准确性。

3.2 LR Encoder

  • LR编码器的主要任务是将输入的低分辨率图像转化为隐藏条件,以提取有效的特征信息,为后续的高分辨率图像生成提供支持。编码器生成的隐藏条件包含了关于输入图像的关键信息,这些信息在条件噪声预测器中被进一步使用,以实现更精确的噪声预测和高分辨率图像生成。
  • 该编码器采用了基于残差网络(ResNet)的结构,能够捕捉图像中的丰富特征,并通过多层卷积操作有效提取低分辨率图像的特征。
  • LR编码器接收低分辨率图像作为输入,并输出经过编码后的特征表示,这些特征为模型的反向过程提供了必要的信息。
  • 编码器的训练与整个模型的训练过程相结合,通过优化损失函数来提高特征提取的效果,从而增强最终生成图像的质量。

3.3 Training and Inference

1. Training

  • 目标:训练的主要目标是优化条件噪声预测器和低分辨率编码器,以提高模型生成高分辨率(HR)图像的能力。

  • 损失函数:使用变分下界(ELBO)作为损失函数来进行训练。通过最小化预测噪声与实际添加噪声之间的差异,来提升噪声预测的准确性。

  • 数据准备:训练过程中,模型使用配对的低分辨率(LR)和高分辨率(HR)图像作为输入。通过对LR图像进行多次扩散处理,生成相应的噪声数据。

  • 优化算法:采用标准的优化算法(如Adam)来更新模型参数,确保训练过程的稳定性和收敛性。

2. Inference

  • 初始化:在推理阶段,首先从高斯分布中随机采样一个潜在变量,作为生成HR图像的起始点。

  • 逐步生成:通过反向过程,模型逐步将潜在变量转化为HR图像。每一步都使用条件噪声预测器预测当前步骤中应去除的噪声,并更新潜在变量。

  • 输入信息:在每个步骤中,条件噪声预测器使用当前的潜在变量、扩散时间步和通过LR编码器生成的隐藏条件,以生成更准确的输出。

  • 输出结果:经过多个反向步骤后,模型生成的HR图像将作为推理结果输出

四、Experiment

4.1 Experimental Settings

1. Datasets

CelebFaces Attributes Dataset (CelebA) 

Z. Liu, P. Luo, X. Wang, X. Tang, Deep learning face attributes in the wild, in: ICCV, 2015..

DIV2K 和 Flickr2K dataset

R. Timofte, S. Gu, J. Wu, L. Van Gool, Ntire 2018 challenge on single image super-resolution: methods and results, in: CVPR Workshops, 2018..

2. Compared Methods

PSNR导向方法、GAN驱动方法和流基方法

4.2 Performance

挺常规的,不写了,这篇文章总体来说方法和实验部分都较为常规,所以只能发个二区吧

五、Conclusion

在本文中,我们提出了 SRDiff,它是 SISR 的第一个基于扩散的模型,据我们所知。我们的工作首先利用马尔可夫链将HR图像转换为简单分布中的潜在变量。然后,我们进行了反向过程,该过程通过使用以 LR 信息为条件的噪声预测器迭代地去噪潜在变量来生成 SR 预测。为了加速收敛过程并稳定训练过程,SRDiff 引入了残差预测。我们对人脸和一般数据集的广泛实验表明,SRDiff 可以生成多样化和逼真的 SR 图像。此外,理论和性能都表明,我们的方法能够分别解决面向 PSNR 的方法、GAN 驱动方法和基于流的方法中出现的过度平滑、模式崩溃和大量占用问题。此外,SRDiff 允许灵活的图像处理,包括潜在空间插值和内容融合。我们的方法生成的多样化 SR 结果可以为用户根据需求选择提供更多参考。我们的方法揭示了潜在的新研究方向。未来,我们将进一步提高所开发的基于扩散的SISR模型的性能,加快推理过程。我们还将我们的工作扩展到更多的图像恢复任务(例如图像去噪、去模糊和去雾),以验证扩散模型在图像恢复领域的潜力。

### 回答1: Q: 什么是“调色板:图像到图像扩散模型”? A: 调色板:图像到图像扩散模型是一种图像处理技术,它利用调色板(一组预定义的颜色)将一张图像转换成另一张图像。这种技术通常使用扩散模型,即在图像中扩散颜色以达到所需效果。这种方法可以应用于许多应用场景,例如图像增强和风格迁移。 ### 回答2: Palette是一个图像到图像扩散模型,它是一种生成模型,以像素为单位从输入图像中生成输出图像。使用深度学习技术,Palette能够自动生成与原始图像相似但不相同的图像,从而为艺术创意和设计领域提供了新的可能性。Palette基于卷积神经网络,其特点是细粒度的像素级平滑,使得生成的图像具有更高的真实感。 Palette的工作原理为,通过输入图像所包含的像素信息,生成一个低分辨率的初始图像,然后通过逐层的向上采样过程,不断提高分辨率并增加图像的细节信息。在这个过程中,Palette会对图像的颜色和纹理进行抽象和重新组合,从而产生出各种不同的图像效果。根据不同的训练数据和训练方式,Palette可以生成不同的风格和效果,比如艺术风格、手绘效果等。 Palette可以应用于许多领域,比如品牌设计、个人艺术创作、影视特效等。在品牌设计方面,Palette可以帮助品牌创造出独特的视觉效果,从而提高品牌认知度和影响力。在个人艺术创作方面,Palette为艺术家提供了全新的创作思路,他们可以使用Palette生成各种不同风格的图像,从而拓宽他们的创作领域。在影视特效方面,Palette可以帮助电影制作团队生成各种特殊效果的图像,从而使电影更为逼真和震撼。 总之,Palette是一个生成模型,其特点是在像素级别上对图像进行平滑和重组,从而生成各种不同风格和效果的图像。Palette的应用领域非常广泛,如品牌设计、艺术创作和影视特效等。未来,Palette将继续发展,为我们带来更多的惊喜和创新。 ### 回答3: palette: image-to-image diffusion models是一种基于图像扩散模型的颜色调色板生成方法。这种方法旨在从给定的目标图像中提取一组相似的颜色,以便在新的图像中使用。这些颜色可以是某个图像的主要色调,也可以是某个颜色调色板中的色彩。 palette: image-to-image diffusion models方法的基本思路是通过使用图像扩散模型,使得每个像素都可以“扩散”到其周围的像素上。这种扩散能够按照某种规则,将相邻的像素颜色进行平滑化处理,从而能够生成更加自然的颜色渐变效果。使用这种方法可以很快地生成一个适合于目标图像的颜色调色板。 palette: image-to-image diffusion models方法的优点在于可以自动地从目标图像中提取相似颜色,并根据这些颜色生成一个合适的颜色调色板。这种方法可以避免手动选择颜色,从而节省时间和精力。此外,使用图像扩散模型的方法可以使所生成的颜色调色板更加平滑,同时可以保持颜色之间的相关性,从而更加适合于图像处理任务。 需要注意的是,palette: image-to-image diffusion models方法是一种机器学习方法,需要使用具有相关背景知识的开发人员进行开发和调试。因此,在使用这种方法之前,需要对机器学习和图像处理等方面有一定的了解和掌握。同时,在实际应用中,也需要根据特定的需求对方法进行具体的调整和优化,以便获得最佳的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值