YODA: You Only Diffuse Areas.
An Area-Masked Diffusion Approach For Image Super-Resolution
Abstract
核心思想:基于低分辨率图像的注意图(attention maps)和扩散过程中的当前时间步长,对空间区域进行选择性的扩散。
优势:YODA通过减少颜色变化对训练的稳定效果,特别是在small batch sizes条件下。SR3生成的预测被颜色变化破坏了,这是YODA在相同条件下集成时不存在的问题。这些颜色的变化导致SR3的性能比SR3与YODA的性能显著下降。(实验部分可直观看出)
1 Introduction
提出原因/动机:
虽然已经有很多人研究SR,但是依旧充满挑战。因为任何给定的LR图像都可能导致若干有效的HR图像(SR固有的不适定性)。
以往的CNN在低倍率下效果还好,在高倍率下无法产生高频细节,并产生过平滑的图像。
像DDPM, SR3扩散模型推理时间长,但图像中并非所有区域都需要同等深度特征提取和细化。
在YODA中,高关注值会触发更多的细化迭代,在整个过程中YODA用SR预测替代了关键区域。预测的SR区域随着每一步逐渐扩大,同时有助于逐渐去噪和提高整体图像质量。
创新点
1.介绍了YODA,一种注意力和时间依赖的图像超分辨率扩散方法。
2.分析了不同的方法来获得注意力图,并发现DINO产生了最好的结果。
3.实验效果优于SR3和SRDiff。
4. YODA在减少批量的训练过程中对SR3具有稳定作用。
2 Background
DDPM部分与SR3和DDPM中介绍内容相似,前向,后向过程,优化。
DINO是具有NO标签的蒸馏(with NO labels)的首字母缩写,是一种自监督学习方法。它涉及一个教师和一个学生网络,学生从局部patch预测全局特征,通过交叉熵损失优化以匹配教师的输出。虽然这两个网络共享相同的体系结构,但它们的参数不同,被称为Vision transformer (ViTs)。
网络 | 输入 |
---|---|
教师网络 | 224×224 全局视图 |
学生网络 | 低于224×224 局部视图 |
3 Methodology
YODA通过在每个时间步中聚焦于图像的关键区域来优化扩散和反向过程。因此,YODA通过精确定位重要的和细节丰富的区域来更频繁地改进,从而提高了整体图像质量。
设x为输入LR图像,在T步中将其增强为SR预测。假设一个与x空间大小相同的attention mask M,0≤Mi,j≤1,反映了对应的空间位置在x中的重要性。即Mi,j >Mi’,j’时,扩散方法对(i, j)位置的细化step比(i ',j ')多。
时间相关的掩码:
其中0 < l < 1,是一个下界超参数来推进mask过程,消除了不会发生扩散的区域(Mi,j = 0),确保每个空间位置的扩散步数最小。
图1给出了一个依赖时间的mask示例
训练目标:将扩散和逆过程限制在由当前时间步0≤t≤T和相应的时间依赖mask M(t)决定的特定区域。
采样过程:迭代地逆转了扩散过程,从噪声状态过渡到正常状态。
为了确保掩码和非掩码图像区域在时间步骤之间正确转换,制定了如图2所示的采样过程,过程类似于相关的inpaint任务,如RePaint。
Step 1. 当前迭代zt和当前掩码M(t),共同确定下一个时间步(t−1)中需要细化的区域:
Step 2. 将图像分为两部分
Step 3. 结合补全的、不重叠的区域来重建一个完整的图像
4 Experiments
Face Super-Resolution: YODA VS SR3
评价指标:PSNR, SSIM, and LPIPS metrics
Dataset | FFHQ(train) |
---|---|
Optimizer | AdamW |
Ttrain | 500 |
Training iterations | 1M |
Dataset | CelebA-HQ(eval) |
Teval | 200 |
evaluated three scenarios: 16 × 16 → 128 × 128, 64 × 64 → 256 × 256, and 64 × 64 → 512 × 512
相比之下,使用DINO提取attention maps可以提高ResNet-50和ViT-S/8主干网的性能。DINO中的MAX注意力头聚合方法,并利用ResNet-50主干性能最佳。
64 × 64 → 256 × 256, upscale = 4, batch size = 8
64 × 64 → 512 × 512, upscale = 8, batch size = 4
YODA方法性能最好
SR3预测中的颜色变化,归因于batch size的减小
General Super-Resolution: YODA VS SRDiff
Dataset | DIV2K(eval) |
---|
基于回归的方法与生成方法相比,通常会产生更高的PSNR和SSIM。与SRDiff方法相比,YODA方法的PSNR提高了+0.21db, SSIM提高了+0.01。但LPIPS略有增加+0.01,在感知指标上略有下降。