JPEG Artifact Correction using Denoising Diffusion Restoration Models翻译

最新推荐文章于 2024-05-28 18:30:00 发布

小白鼠啊

最新推荐文章于 2024-05-28 18:30:00 发布

阅读量2.2k

点赞数 2

文章标签：人工智能 python

本文链接：https://blog.csdn.net/qq_43187232/article/details/127700221

版权

Abstract
扩散模型可以用作解决各种逆问题的学习先验。然而，大多数现有的方法仅限于线性逆问题，限制了它们在更一般情况下的适用性。在本文中，我们建立在去噪扩散恢复模型(DDRM)的基础上，并提出了一种解决一些非线性逆问题的方法。我们利用DDRM中使用的伪逆算子，并将这一概念推广到其他测量算子，这允许我们将预训练的无条件扩散模型用于JPEG伪像校正等应用。我们通过实验证明了我们的方法在各种质量因素上的有效性，达到了与专门为JPEG恢复任务训练的最先进方法相当的性能水平。
在这里插入图片描述
1 Introduction
许多图像处理问题是逆问题的实例[22，20，21]。在现实世界的应用中，人们经常需要面对多种不同的退化模型[33，14，16]，在每种情况下训练特定问题的模型可能是昂贵的[27]。因此，开发应用问题不可知模型的方法是有价值的，该方法将在推理时适应不同的退化模型，而无需重新训练。现有的方法，虽然在各种任务上取得了不错的性能，但通常局限于线性逆问题[5，34，18，16]，忽略了某些重要的非线性逆问题，如JPEG伪影校正。由于JPEG是一种有损图像压缩格式[37]，JPEG图像会出现质量损失和不希望的伪像。已经开发了几种方法来解决这个问题。
在这里插入图片描述

为了解决这个问题，我们介绍了一种使用去噪扩散恢复模型(DDRM) [16]执行JPEG伪像校正的方法。我们的核心思想是推广无噪声观测情况下DDRM更新规则中存在的伪逆矩阵。这种“伪逆”的广义概念包括作为特例的JPEG，其中JPEG编码的“伪逆”仅仅是JPEG解码。产生的算法类似于DDRM的原始更新，分别用JPEG编码和解码替换线性算子及其伪逆。
我们将我们的算法应用于具有各种质量因子(QF)的JPEG恢复，其中量化矩阵嵌入在JPEG文件中，并且在推断时自然是已知的。在常见的图像质量指标中，如PSNR、SSIM [38]和LPIPS [41]，我们的方法优于最近专门为JPEG恢复训练的最新GAN基基线[10]。我们的方法在基线未被训练的低QF上实现了甚至更多的改进，证明了利用无条件扩散模型的方法的泛化优势。
扩展：
PSNR全称为“Peak Signal-to-Noise Ratio”，中文意思即为峰值信噪比，是衡量图像质量的指标之一。PSNR是基于MSE(均方误差)定义，对给定一个大小为m*n的原始图像I和对其添加噪声后的噪声图像K，其MSE可定义为：
在这里插入图片描述
则PSNR可定义为：

2 Background
Diffusion Models.
扩散模型是基于马尔科夫链的结构的生成模型，XT -> XT-1 ->…->X1->X0,其中任意Xt∈Rn(矩阵),它定义了如下联合分布：

推到XT…X0之后,仅保留X0作为生成模型的最终样本为了训练一个扩散模型，固定的分解的变分分布被引入：
在这里插入图片描述
在最大似然目标中产生数据概率密度下界，特定化参数采取以下形式：

其中p(t) θ可以通过去噪自动编码器[36]物镜来训练，在理想情况下，表示为f (t) θ (xt)的降噪器应该映射到MMSE估计器Eq(x0|xt)[x0]，并且生成对“clean”x0的预测。
扩散模型在图像生成方面取得了前所未有的成功，并且它们也被部署用于各种任务

扩展
ELBO，全称为 Evidence Lower Bound，即证据下界。这里的证据指数据或可观测变量的概率密度。
Linear Inverse Problems一般的线性逆问题被提出为：
在这里插入图片描述
我们为了从测量值y∈Rn中恢复X∈Rn。 H∈Rm×Rn是已知的降解基质，和
是一个方差同分布的已知噪声。
各种各样的工作已经将扩散模型应用于逆问题解决，主要是对于无噪声的情况。虽然有可能基于x和y对训练条件扩散模型[27，28，39]，但这种模型可能无法推广到其他逆问题。因此，通常希望从无条件扩散模型[5，34，18，16]中制定反问题求解器，其中关于反问题的知识不需要在训练期间已知；与特定问题的条件扩散模型相比，问题不可知技术节省了大量的计算资源。

在ImageNet-1K上针对不同质量因子的JPEG伪像校正结果
Denoising Diffusion Restoration Models (DDRM).
特别是，DDRM [16]是一个在有噪声和无噪声情况下线性逆问题的通用求解器。对于任何线性逆问题，DDRM模型被定义为
在这里插入图片描述
其中x0是最终的扩散输出。DDRM背后的高级思想是利用H的奇异值分解，并将x和可能有噪声的y都变换到共享的频谱空间。在这个空间中，当来自y的信息可用时(即，当奇异值非零时)，DDRM对维度执行去噪，并且在这样的信息不可用时(即，当奇异值为零时)对维度执行插补，明确地考虑测量噪声。
JPEG
JPEG [37]是一种常用的图像有损压缩方法。在高级别上，JPEG首先将未压缩图像从RGB色彩空间转换到YCbCr空间，选择性地应用色度子采样，将图像分割为8 × 8像素块，执行离散余弦变换(DCT)，然后使用固定量化矩阵对结果值执行量化。然后，这些值可以通过霍夫曼树以无损方式压缩。整个过程可以被还原以定义JPEG解码方法，在色度子采样和量化步骤中发生信息损失。自1991年推出以来，JPEG已成为世界上使用最广泛的图像压缩格式，每天产生数十亿幅JPEG图像；因此，从JPEG压缩图像恢复高质量图像有着广泛的应用。为此目的开发了几种先前的方法
3 JPEG Artifact Correction with DDRM
对于观测值y中没有噪声的情况，对于线性逆问题，从p(t) θ (xt|xt+1，y)采样的一般DDRM过程简化为
在这里插入图片描述
对于观测值y中没有噪声的情况，对于线性逆问题，从p(t) θ (xt|xt+1，y)采样的一般DDRM过程简化为

其中H+是H的Moore-Penrose pseudo-inverse（摩尔-彭罗斯伪逆）。

是前一步t+1的去噪模型输出。

是预测噪音值。η和ηb是用户定义的超参数
在这里插入图片描述
是一个标准的高斯分布向量。在高层次上，我们通过x0t注入关于y的信息，在x0t中，我们用我们从y中知道的值替换谱域中的值。采样过程然后合计x0t(根据y校正)、xt+1(当前输入)和f (t+1) θ (xt+1)(降噪器输出)，以产生下一次迭代的值。虽然上述方法似乎只适用于线性H，但其见解实际上可用于其他非线性逆问题，如JPEG伪像校正。我们注意到，对于线性H，其伪逆H具有两个重要性质:
在这里插入图片描述
取伪逆不会改变测量值。
2.H Hx“接近”x，在这种意义上，当只观察y = Hx(而不是x)时，H Hx为所有x提供了问题的最小二乘解
对于非线性算子，可能存在上述性质。例如，如果我们将H视为JPEG编码运算符，那么JPEG解码运算符也满足这些属性:
1.JPEG编码在量化和色度二次采样阶段引入了信息损失。剩余的信息在JPEG解码过程中被保留，因此再次对其进行编码将导致相同的结果。
2.JPEG解码方法通常保留视觉相似性，因此在编码后应用解码应该会生成与原始图像“接近”的图像。有了这种认识，我们可以简单地用DDRM和更新规则执行JPEG恢复
在这里插入图片描述
这可以在实际设置中使用，因为量化矩阵存储在JPEG文件中
4 Experimental Results
我们在ImageNet [7]数据集上评估我们的方法，因为它是多样化的，并且代表了真实世界的用例。具体来说，我们在名为ImageNet-1K [26]的ImageNet验证集的1000个图像子集上进行评估。我们利用[8]中的扩散模型，在256 × 256像素ImageNet训练图像上进行训练，扩散时间表为1000个时间步长。在我们所有的实验中，我们选择超参数η = 1、ηb = 0.4和20个均匀间隔的扩散步骤。此外，由于JPEG图像通常保留整体图像内容，我们发现我们可以用噪声干扰JPEG压缩的图像，并将其用作中间步骤t = 300的采样过程的初始化，类似于[24]。这允许采样提供更可靠的重建，避免了在初始时间步长T = 1000开始时引入的不必要的随机性。然而，当我们使用概率抽样方案时，结果中仍然会有随机性。为了稳定性能，我们为每个输入绘制8个独立的样本，并保存得到的平均图像。我们将第一个样本表示为“我们的(S)”，将平均图像表示为“我们的(A)”。
对于我们的JPEG伪像校正实验，我们使用JPEG [11]最常见的变体，它包括由质量因子(QF)定义的色度子采样和量化矩阵，QF范围从1到100，1是最压缩的，100是最忠实于原始图像的。
我们的方法产生高质量的重建(见图1，4)。此外，当在PSNR、SSIM [38]和LPIPS [41]等常见指标上进行数值评估时，我们的方法比简单的JPEG解码有了显著的改进，其性能相当于或优于最近最新的JPEG伪像校正技术QGAC [10]。QGAC专门针对QF ∈ [10，100]的JPEG恢复进行了训练，从表1中可以看出，它对较低QF的泛化能力很差。相比之下，我们的方法在没有JPEG特定训练的情况下对所有QF都适用。我们通过在图3中显示它的压缩率-失真曲线来证明它的成功。
此外，我们的方法不限于JPEG伪影校正，还可以应用于DDRM [16]未涵盖的类似非线性逆问题。例如，我们考虑图像去量化的问题，其中我们试图从低于标准24位每色量化的图像中恢复高质量的重建。如图2所示，我们的方法很好地概括了图像去量化，因为它的问题不可知的性质。此外，我们的方法不限于JPEG伪影校正，还可以应用于DDRM [16]未涵盖的类似非线性逆问题。例如，我们考虑图像去量化的问题，其中我们试图从低于标准24位每色量化的图像中恢复高质量的重建。如图2所示，我们的方法很好地概括了图像去量化，因为它的问题不可知的性质。
5 Conclusion
我们提出了一种新的方法来纠正JPEG压缩伪影使用扩散模型。我们的方法通过推广伪逆概念将DDRM [16]扩展到线性情况之外。我们在ImageNet-1K [7，26]上进行了评估，在大多数情况下，我们的方法与最先进的基线性能相当，并展示了专门训练的基线所不具备的对较低质量因子的泛化能力。我们的方法可以进一步推广到JPEG恢复之外，正如我们在图像去量化问题上成功演示的那样。它可以无缝地做到这一点，无需重新训练，也无需特定问题的超参数调整。

小白鼠啊

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
JPEG Artifact Correction using Denoising Diffusion Restoration Models翻译

扩散模型可以用作解决各种逆问题的学习先验。然而，大多数现有的方法仅限于线性逆问题，限制了它们在更一般情况下的适用性。在本文中，我们建立在去噪扩散恢复模型(DDRM)的基础上，并提出了一种解决一些非线性逆问题的方法。我们利用DDRM中使用的伪逆算子，并将这一概念推广到其他测量算子，这允许我们将预训练的无条件扩散模型用于JPEG伪像校正等应用。我们通过实验证明了我们的方法在各种质量因素上的有效性，达到了与专门为JPEG恢复任务训练的最先进方法相当的性能水平。
复制链接

扫一扫