YODA: You Only Diffuse Areas.

qq_45181888

已于 2023-08-18 16:30:41 修改

阅读量224

点赞数 1

文章标签：人工智能

于 2023-08-18 16:29:58 首次发布

本文链接：https://blog.csdn.net/qq_45181888/article/details/132356561

版权

YODA: You Only Diffuse Areas.

An Area-Masked Diffusion Approach For Image Super-Resolution

Abstract

核心思想：基于低分辨率图像的注意图（attention maps）和扩散过程中的当前时间步长，对空间区域进行选择性的扩散。

优势：YODA通过减少颜色变化对训练的稳定效果，特别是在small batch sizes条件下。SR3生成的预测被颜色变化破坏了，这是YODA在相同条件下集成时不存在的问题。这些颜色的变化导致SR3的性能比SR3与YODA的性能显著下降。（实验部分可直观看出）

1 Introduction

提出原因/动机：

 虽然已经有很多人研究SR，但是依旧充满挑战。因为任何给定的LR图像都可能导致若干有效的HR图像（SR固有的不适定性）。
 以往的CNN在低倍率下效果还好，在高倍率下无法产生高频细节，并产生过平滑的图像。

 像DDPM, SR3扩散模型推理时间长，但图像中并非所有区域都需要同等深度特征提取和细化。

在YODA中，高关注值会触发更多的细化迭代，在整个过程中YODA用SR预测替代了关键区域。预测的SR区域随着每一步逐渐扩大，同时有助于逐渐去噪和提高整体图像质量。

创新点

1.介绍了YODA，一种注意力和时间依赖的图像超分辨率扩散方法。
2.分析了不同的方法来获得注意力图，并发现DINO产生了最好的结果。
3.实验效果优于SR3和SRDiff。
4. YODA在减少批量的训练过程中对SR3具有稳定作用。

2 Background

DDPM部分与SR3和DDPM中介绍内容相似，前向，后向过程，优化。
DINO是具有NO标签的蒸馏(with NO labels)的首字母缩写，是一种自监督学习方法。它涉及一个教师和一个学生网络，学生从局部patch预测全局特征，通过交叉熵损失优化以匹配教师的输出。虽然这两个网络共享相同的体系结构，但它们的参数不同，被称为Vision transformer (ViTs)。

网络	输入
教师网络	224×224 全局视图
学生网络	低于224×224 局部视图

3 Methodology

YODA通过在每个时间步中聚焦于图像的关键区域来优化扩散和反向过程。因此，YODA通过精确定位重要的和细节丰富的区域来更频繁地改进，从而提高了整体图像质量。

设x为输入LR图像，在T步中将其增强为SR预测。假设一个与x空间大小相同的attention mask M，0≤M_i,j≤1，反映了对应的空间位置在x中的重要性。即M_i,j >M_i’,j’时，扩散方法对(i, j)位置的细化step比(i '，j ')多。
时间相关的掩码：
在这里插入图片描述
其中0 < l < 1，是一个下界超参数来推进mask过程，消除了不会发生扩散的区域(M_i,j = 0)，确保每个空间位置的扩散步数最小。
图1给出了一个依赖时间的mask示例

训练目标：将扩散和逆过程限制在由当前时间步0≤t≤T和相应的时间依赖mask M(t)决定的特定区域。

在这里插入图片描述

采样过程：迭代地逆转了扩散过程，从噪声状态过渡到正常状态。

为了确保掩码和非掩码图像区域在时间步骤之间正确转换，制定了如图2所示的采样过程，过程类似于相关的inpaint任务，如RePaint。
在这里插入图片描述

Step 1. 当前迭代z_t和当前掩码M(t)，共同确定下一个时间步(t−1)中需要细化的区域：
在这里插入图片描述
Step 2. 将图像分为两部分

Step 3. 结合补全的、不重叠的区域来重建一个完整的图像

4 Experiments

Face Super-Resolution: YODA VS SR3

评价指标：PSNR, SSIM, and LPIPS metrics

Dataset	FFHQ(train)
Optimizer	AdamW
T_train	500
Training iterations	1M
Dataset	CelebA-HQ(eval)
T_eval	200

evaluated three scenarios: 16 × 16 → 128 × 128, 64 × 64 → 256 × 256, and 64 × 64 → 512 × 512

在这里插入图片描述
相比之下，使用DINO提取attention maps可以提高ResNet-50和ViT-S/8主干网的性能。DINO中的MAX注意力头聚合方法，并利用ResNet-50主干性能最佳。
64 × 64 → 256 × 256, upscale = 4, batch size = 8
64 × 64 → 512 × 512, upscale = 8, batch size = 4
在这里插入图片描述
YODA方法性能最好

SR3预测中的颜色变化，归因于batch size的减小