CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution CVPR

最新推荐文章于 2025-06-11 12:06:04 发布

JennnyZhang

最新推荐文章于 2025-06-11 12:06:04 发布

阅读量1.2k

点赞数 31

分类专栏：论文精读 Diffusion 文章标签： Diffusion 人工智能计算机视觉扩散模型深度学习

本文链接：https://blog.csdn.net/qq_53826699/article/details/142858045

版权

论文精读同时被 2 个专栏收录

33 篇文章

订阅专栏

Diffusion

21 篇文章

订阅专栏

Motivation

Contribution

Method

STAGE 1: Learn CDP from ILR and IHR

STAGE 2: Generate CDP from LR

GitHub - I2-Multimedia-Lab/CDFormer

现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息，但长期以来一直忽略了基本内容细节。在本文中，我们提出了一种新颖的 BSR 方法，即内容感知退化驱动 Transformer (CDFormer)，以捕获退化和内容表示。然而，低分辨率图像不能提供足够的内容细节，因此我们引入了一个基于扩散的模块CDF或merdiff来学习低分辨率图像和高分辨率图像中的内容退化先验(CDP)，然后在给定低分辨率信息的情况下近似真实分布。此外，我们应用自适应 SR 网络 CDF 或merSR，有效地利用 CDP 来细化特征。与之前的基于扩散的 SR 方法相比，我们将扩散模型视为估计器，可以克服昂贵的采样时间和过度多样性的限制。实验表明，CDFormer 可以优于现有方法，在盲设置下在各种基准上建立了新的最先进的性能。

Motivation

**计算成本高：**将DM视为主要的超分辨率网络需要进行大量的推理步骤（大约50到1000步），这在计算上非常昂贵，不适合实时应用。虽然可以通过减少迭代次数来缓解这个问题，但这会导致超分辨率结果的质量下降。
**引入不良伪影：**单步噪声预测模型固有的误差传播会导致不希望的伪影，如联合错位或纹理扭曲。例如，DCLS（一个最先进的KP方法）在PSNR和SSIM方面显著优于DP方法（如DASR和KDSR）。然而，尽管StableSR在DM基础的超分辨率方法中处于领先地位，但它也会遇到纹理不正确（例如，将椭圆重构为正方形）和细节丢失（如镜子中的人消失）的问题。

我们怀疑StableSR中错误纹理结果可能与预训练DM的多样性过大有关，这对超分辨率任务来说是过度的。由于给定图像的低质量，预训练DM中的先验可能会误解给定的低分辨率图像，从而在错误的上下文中进行重构。

Contribution

我们引入了一个内容降解先验（CDP）生成模块。CDP在第一阶段通过高分辨率（HR）和低分辨率（LR）图像对进行学习，而在第二阶段则仅通过基于扩散的估计器从LR图像重新生成。
我们提出了一种CDP引导的超分辨率网络，其中CDP通过可学习的仿射变换和交互流机制注入，以改善高频和低频细节的表示。
实验结果证明了CDFormer的优越性，使其达到了新的最先进性能。通过内容估计，CDFormer即使在严重降解的图像中也能实现前所未有的超分辨率效果。

本论文旨在解决盲超分辨率方法在估计核或退化信息时忽略了内容细节的问题。论文提出了一种新的盲超分辨率方法CDFormer，旨在捕捉退化和内容表示。同时，论文还试图解决低分辨率图像无法提供足够内容细节的问题，并引入了基于扩散的模块CDFormer_diff来学习低分辨率和高分辨率图像中的内容退化先验，并仅根据低分辨率信息近似实际分布。此外，论文还应用了自适应SR网络CDFormer_SR，有效利用CDP来改进特征。

Method

STAGE 1: Learn CDP from ILR and IHR

训练GT编码器（EGT）：
- 学习CDP，从HR和LR图像对中提取内容和降解信息。
- 通过重建损失（L1损失）进行优化，目标是将重建的SR图像与HR图像尽量接近。
重建损失（Lrec）：用于第一阶段，优化重建的SR图像与真实HR图像之间的差异。

在这一阶段，EGT将被训练以在高分辨率（HR）和低分辨率（LR）图像的监督下构建真实数据分布，同时确保CDFormerSR有效利用估计的表示。EGT的设计目的是从LR和HR图像对中提取降解信息，以及从HR图像中提取内容细节，这就是所谓的CDP，表示为：

CDFormerSR网络的目标是通过CDP的指导重建高分辨率图像。为了增强表示能力，CDRB结合了空间注意力和通道注意力机制，并通过交互机制进一步结合CNN和Transformer特征，使CDRB模块能够自适应地精炼高频和低频信息。

EGT由多个残差块和一个多层感知机（MLP）层组成，如图2右侧所示。CDP与CDF ormerSR中的特征融合通过可学习的通道仿射变换在注入模块CDIM中完成，公式为：

其中，F和F′∈RH×W×C分别是输入和输出特征图，⊙表示元素级乘法，Norm(⋅)表示层归一化。

其中，Z0是EGT预测的CDP，CDIMi,j是第 i 个CDRB中的第 j 个CDIM。为了确保表示的有效学习，我们应用了两种自注意力和深度卷积操作。具体来说，我们首先利用空间窗口自注意力（SW-SA），计算非重叠窗口内的注意力得分。