CVPR 2024 底层视觉大模型！董超团队新作SUPIR：扩散生成先验的图像复原

最新推荐文章于 2025-03-17 18:03:08 发布

Amusi（CVer）

最新推荐文章于 2025-03-17 18:03:08 发布

阅读量2.3k

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247593967&idx=3&sn=9a67170b4f4371c2010feaf45691aad6&chksm=f84cf5bd677b727c1d2da658e2f35621138f26f9d85c9d161ccde4a0043de7be7fe582c225dc&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信：CVer444，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！

作者：星晴（已授权转载）

https://zhuanlan.zhihu.com/p/679850929

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

2024.1.25，董超XPixelGroup发布的一个新作。这篇文章用20M+张图像数据，结合SDXL模型进行了图像复原，使用64张A6000训练10天，可以看做是底层视觉领域迈向大模型的一个里程碑。本文对其进行详细的解读。

主页：https://supir.xpixel.group/

论文：https://arxiv.org/abs/2401.13627

这是部分可视化结果，整体视觉效果还是很好的：

另外Project Page上有一些可交互的可视化结果。

Introduction

在其他CV领域有很多大模型工作出现，比如SAM。而由于计算资源、模型架构、训练数据以及生成模型等工程约束条件的限制，扩大图像复原模型是很具有挑战性的。文章的motivation也就是要在一定程度上突破这样的诸多限制，构建一个较大的模型用于图像复原。

该工作使用了StableDiffusion-XL (SDXL)作为生成模型，设计并训练了一个参数量为600M的adapter，收集了20M+高质量高清数据用于训练，并且每张图片都有相应的描述性文本作为prompt；同时，使用了一个参数量13B的多模态LLM用于提供图像内容prompt。

Related Work

相关工作可以参考StableSR, PASD, DiffBIR等等。另外可以参考我对PromptSR, SeeSR的解读：

https://zhuanlan.zhihu.com/p/678934551https://zhuanlan.zhihu.com/p/678970240

Method

整体架构见下图

Model Scaling Up

Generative Prior

可选的生成式大模型有Imagen, IF, SDXL。作者首先给出了选择SDXL的原因：Imagen和IF都是层次化方法，即先生成一个低分辨率的图像然后逐步上采样，SDXL一步到位生成高分辨率图像能够更加有效地利用其参数来提升图像质量，而不是进行文本解释，更加符合本工作的目标；

另外，SDXL采用了一种Base-Refine策略。在Base model中，生成的图像多样但质量较低，Refine model则提升了这些图像的感知质量。与Base model相比，Refine model使用的训练图像质量更高，但多样性较少。由于训练数据已经是大量高质量的图像，SDXL的两阶段设计就没有必要，因此选择了参数更多的基础模型。

Degradation-Robust Encoder

在SDXL中，diffusion过程是在latent space进行的，HQ图像要经过一个预训练的encoder从而映射为latent HQ，前面的一些工作为了更好地利用LQ先验，将LQ也用同一个encoder映射到latent space。而作者认为这个encoder没用LQ图像训练过(这样会导致其对退化敏感，受到退化的影响)，会影响模型对LQ图像内容的判断，可能会产生伪影。因此作者用LQ和HQ对预训练encoder进行了finetune，从而得到一个退化鲁棒的encoder，不会不受到退化影响。

Large-Scale Adaptor Design

当前的几种adapter， LoRA, T2I adaptor, ControlNet，都有局限性，最常用的ControlNet的问题在于如果在SDXL这种大模型上用的话，encoder复制一份代价太大，那么作者主要对其有两个改动：

Scaling Up Training Data

Image Collection

图像复原领域数量多且质量高的数据集目前尚未出现，因此作者收集了一个数据集，包含20M张1024*1024的高质量图像。并加入了70K张未对齐的FFHQ-raw数据集图像从而提升face restoration的能力。可以看到和其他数据集对比如下：

Multi-Modality Language Guidance

Negative-Quality Samples and Prompt

概括而言，就是加入negative prompts，也就是对图像质量负面评价的词，比如oil painting, cartoon, blur, dirty, messy, low quality, deformation, low resolution, over-smooth等，然后将positive和negative prompts得到的输出融合，公式如下：

但是只有negative prompts没有negative samples，模型无法理解negative prompts，因此作者在训练数据中加入了negative samples，具体而言，用SDXL生成100K张低质量图像。效果如图：

Restoration-Guided Sampling

Diffusion model做restoration会面临一个fidelity-Realness的trade-off，强大的生成能力可能会造成保真度的下降。因此作者提出了一种采样策略，基于EDM。简单概括，在DM生成图像的早期阶段，主要生成低频信息，那么需要约束其与LQ图像的一致性，提高保真度，在后期，主要生成高频细节纹理，那么这个时候就不需要过多约束，保证生成的真实性效果，方法如图所示，详细说明见论文。

Experiments

Datasets

20K带文字描述的高质量图像+70K FFHQ人脸图像+100K negative-quality samples

Results

分别在合成数据和真实数据上进行了实验，具体见论文。

注意虽然有参考的指标不是SOTA，但无参考指标对于图像感知质量更加重要。

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如多模态或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看