YODA: You Only Diffuse Areas.

YODA: You Only Diffuse Areas.

An Area-Masked Diffusion Approach For Image Super-Resolution

Abstract

核心思想:基于低分辨率图像的注意图(attention maps)和扩散过程中的当前时间步长,对空间区域进行选择性的扩散。

优势:YODA通过减少颜色变化对训练的稳定效果,特别是在small batch sizes条件下。SR3生成的预测被颜色变化破坏了,这是YODA在相同条件下集成时不存在的问题。这些颜色的变化导致SR3的性能比SR3YODA的性能显著下降。(实验部分可直观看出)

1 Introduction

提出原因/动机:

    虽然已经有很多人研究SR,但是依旧充满挑战。因为任何给定的LR图像都可能导致若干有效的HR图像(SR固有的不适定性)。
    以往的CNN在低倍率下效果还好,在高倍率下无法产生高频细节,并产生过平滑的图像。

    像DDPM, SR3扩散模型推理时间长,但图像中并非所有区域都需要同等深度特征提取和细化。

YODA中,高关注值会触发更多的细化迭代,在整个过程中YODA用SR预测替代了关键区域。预测的SR区域随着每一步逐渐扩大,同时有助于逐渐去噪和提高整体图像质量。

创新点

   1.介绍了YODA,一种注意力和时间依赖的图像超分辨率扩散方法。
   2.分析了不同的方法来获得注意力图,并发现DINO产生了最好的结果。
   3.实验效果优于SR3SRDiff
   4. YODA在减少批量的训练过程中对SR3具有稳定作用。

2 Background

DDPM部分与SR3和DDPM中介绍内容相似,前向,后向过程,优化。
DINO是具有NO标签的蒸馏(with NO labels)的首字母缩写,是一种自监督学习方法。它涉及一个教师和一个学生网络,学生从局部patch预测全局特征,通过交叉熵损失优化以匹配教师的输出。虽然这两个网络共享相同的体系结构,但它们的参数不同,被称为Vision transformer (ViTs)。

网络输入
教师网络224×224 全局视图
学生网络低于224×224 局部视图

3 Methodology

YODA通过在每个时间步中聚焦于图像的关键区域来优化扩散和反向过程。因此,YODA通过精确定位重要的和细节丰富的区域来更频繁地改进,从而提高了整体图像质量。

设x为输入LR图像,在T步中将其增强为SR预测。假设一个与x空间大小相同的attention mask M,0≤Mi,j≤1,反映了对应的空间位置在x中的重要性。即Mi,j >Mi’,j’时,扩散方法对(i, j)位置的细化step比(i ',j ')多。
时间相关的掩码:
在这里插入图片描述
其中0 < l < 1,是一个下界超参数来推进mask过程,消除了不会发生扩散的区域(Mi,j = 0),确保每个空间位置的扩散步数最小。
图1给出了一个依赖时间的mask示例
在这里插入图片描述

训练目标:将扩散和逆过程限制在由当前时间步0≤t≤T和相应的时间依赖mask M(t)决定的特定区域。

在这里插入图片描述

采样过程:迭代地逆转了扩散过程,从噪声状态过渡到正常状态。

为了确保掩码和非掩码图像区域在时间步骤之间正确转换,制定了如图2所示的采样过程,过程类似于相关的inpaint任务,如RePaint。
在这里插入图片描述

Step 1. 当前迭代zt和当前掩码M(t),共同确定下一个时间步(t−1)中需要细化的区域:
在这里插入图片描述
Step 2. 将图像分为两部分
在这里插入图片描述
Step 3. 结合补全的、不重叠的区域来重建一个完整的图像
在这里插入图片描述

4 Experiments

Face Super-Resolution: YODA VS SR3

评价指标:PSNR, SSIM, and LPIPS metrics

DatasetFFHQ(train)
OptimizerAdamW
Ttrain500
Training iterations1M
DatasetCelebA-HQ(eval)
Teval200

evaluated three scenarios: 16 × 16 → 128 × 128, 64 × 64 → 256 × 256, and 64 × 64 → 512 × 512

在这里插入图片描述
相比之下,使用DINO提取attention maps可以提高ResNet-50和ViT-S/8主干网的性能。DINO中的MAX注意力头聚合方法,并利用ResNet-50主干性能最佳。
64 × 64 → 256 × 256, upscale = 4, batch size = 8
64 × 64 → 512 × 512, upscale = 8, batch size = 4
在这里插入图片描述
YODA方法性能最好
在这里插入图片描述
SR3预测中的颜色变化,归因于batch size的减小

General Super-Resolution: YODA VS SRDiff

DatasetDIV2K(eval)

在这里插入图片描述

基于回归的方法与生成方法相比,通常会产生更高的PSNR和SSIM。与SRDiff方法相比,YODA方法的PSNR提高了+0.21db, SSIM提高了+0.01。但LPIPS略有增加+0.01,在感知指标上略有下降。

与一般的SR相比,YODA的优势在face-only SR上表现得更为明显。这可能是由于SRDiff的设计侧重于残差图像中的高斯噪声的扩散和去噪,即LR和HR之间的差异。与SR3使用全LR图像的方法不同,SRDiff的残差图像输入相对稀疏。因此,推测DINO的注意力图可能没有准确捕捉输入的关键区域,可能高估了残差图像中缺失的区域。

5 Limitations & Future Work

DINO的教师网络输入是224 × 224,这可能不足以满足高分辨率图像SR应用。一个理想的解决方案是用比例不变的方法提取注意力图。另一个限制是YODA引入了一个新的超参数:下界,它表示在训练之前必须定义最小扩散步数。

对于进一步的研究,利用YODA进行无条件图像生成的探索,如文本到图像的转换,以及开发其他创新技术来提取注意力图,应用到去模糊或无监督图像SR。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值