CVPR 2024 底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

b3fbd924c8a8439a07d86caa155f5692.jpeg

作者:星晴(已授权转载)

https://zhuanlan.zhihu.com/p/679850929

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

2024.1.25,董超XPixelGroup发布的一个新作。这篇文章用20M+张图像数据,结合SDXL模型进行了图像复原,使用64张A6000训练10天,可以看做是底层视觉领域迈向大模型的一个里程碑。本文对其进行详细的解读。

主页:https://supir.xpixel.group/

论文:https://arxiv.org/abs/2401.13627

这是部分可视化结果,整体视觉效果还是很好的:

4c60ebe5599eb49ee3d1f811ea9613b5.jpeg

另外Project Page上有一些可交互的可视化结果。

Introduction

在其他CV领域有很多大模型工作出现,比如SAM。而由于计算资源、模型架构、训练数据以及生成模型等工程约束条件的限制,扩大图像复原模型是很具有挑战性的。文章的motivation也就是要在一定程度上突破这样的诸多限制,构建一个较大的模型用于图像复原。

该工作使用了StableDiffusion-XL (SDXL)作为生成模型,设计并训练了一个参数量为600M的adapter,收集了20M+高质量高清数据用于训练,并且每张图片都有相应的描述性文本作为prompt;同时,使用了一个参数量13B的多模态LLM用于提供图像内容prompt。

Related Work

相关工作可以参考StableSR, PASD, DiffBIR等等。另外可以参考我对PromptSR, SeeSR的解读:

https://zhuanlan.zhihu.com/p/678934551https://zhuanlan.zhihu.com/p/678970240

Method

整体架构见下图

945352ceb26b4829a6ae2a012bd47362.jpeg

Model Scaling Up

Generative Prior

可选的生成式大模型有Imagen, IF, SDXL。作者首先给出了选择SDXL的原因:Imagen和IF都是层次化方法,即先生成一个低分辨率的图像然后逐步上采样,SDXL一步到位生成高分辨率图像能够更加有效地利用其参数来提升图像质量,而不是进行文本解释,更加符合本工作的目标;

另外,SDXL采用了一种Base-Refine策略。在Base model中,生成的图像多样但质量较低,Refine model则提升了这些图像的感知质量。与Base model相比,Refine model使用的训练图像质量更高,但多样性较少。由于训练数据已经是大量高质量的图像,SDXL的两阶段设计就没有必要,因此选择了参数更多的基础模型。

Degradation-Robust Encoder

在SDXL中,diffusion过程是在latent space进行的,HQ图像要经过一个预训练的encoder从而映射为latent HQ,前面的一些工作为了更好地利用LQ先验,将LQ也用同一个encoder映射到latent space。而作者认为这个encoder没用LQ图像训练过(这样会导致其对退化敏感,受到退化的影响),会影响模型对LQ图像内容的判断,可能会产生伪影。因此作者用LQ和HQ对预训练encoder进行了finetune,从而得到一个退化鲁棒的encoder,不会不受到退化影响。

1d6fbbbe82549f84690cd6f3f30d22ca.png

Large-Scale Adaptor Design

6035114daef4433b9836cd00c31d82e0.jpeg

当前的几种adapter, LoRA, T2I adaptor, ControlNet,都有局限性,最常用的ControlNet的问题在于如果在SDXL这种大模型上用的话,encoder复制一份代价太大,那么作者主要对其有两个改动:

5c5d86e36f6369bfb85345ee8b92ea4d.png

c7de5e7fdb83fe22db90529b905394b6.jpeg

Scaling Up Training Data

Image Collection

图像复原领域数量多且质量高的数据集目前尚未出现,因此作者收集了一个数据集,包含20M张1024*1024的高质量图像。并加入了70K张未对齐的FFHQ-raw数据集图像从而提升face restoration的能力。可以看到和其他数据集对比如下:

3263daa128cceb86b7257360e465bd97.jpeg

Multi-Modality Language Guidance

ce39522aa186d1731ae6cacf6374992a.png

565f56abda2640852e0a88088d389d60.jpeg

Negative-Quality Samples and Prompt

概括而言,就是加入negative prompts,也就是对图像质量负面评价的词,比如oil painting, cartoon, blur, dirty, messy, low quality, deformation, low resolution, over-smooth等,然后将positive和negative prompts得到的输出融合,公式如下:

4b2cda8c6ab04a5087f710f855fd316b.png

但是只有negative prompts没有negative samples,模型无法理解negative prompts,因此作者在训练数据中加入了negative samples,具体而言,用SDXL生成100K张低质量图像。效果如图:

b1b1636003a9c21e7e54a8206a8e6697.jpeg

Restoration-Guided Sampling

Diffusion model做restoration会面临一个fidelity-Realness的trade-off,强大的生成能力可能会造成保真度的下降。因此作者提出了一种采样策略,基于EDM。简单概括,在DM生成图像的早期阶段,主要生成低频信息,那么需要约束其与LQ图像的一致性,提高保真度,在后期,主要生成高频细节纹理,那么这个时候就不需要过多约束,保证生成的真实性效果,方法如图所示,详细说明见论文。

c8ae921ed137d8c31afd9436d2861bb6.jpeg

Experiments

Datasets

20K带文字描述的高质量图像+70K FFHQ人脸图像+100K negative-quality samples

Results

分别在合成数据和真实数据上进行了实验,具体见论文。

注意虽然有参考的指标不是SOTA,但无参考指标对于图像感知质量更加重要。

0239bc5b480136ea3a574ef6b250e063.jpeg 2924aa7901936ae8a51052b4f1efef30.jpeg 6f7f0ea86c2e937133fe64e9d8d3d269.jpeg 698867a20ea0a746cb66242495a4617c.jpeg 9938a589b2730f78b1681d3d113222a4.jpeg f9cfd92e6af5e2548f41cbd49a840350.jpeg 42525ef9f952a8f88287cee2cbe1bab9.jpeg

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《3D点云生成扩散概率模型》是CVPR 2021会议上提出的一种方法,用于生成逼真的3D点云模型。该方法通过建模点云中点之间的关系,以及点与空间中的位置关系,来生成点云数据。 传统的点云生成方法通常只考虑点与点之间的局部关系,而忽略了点与全局空间之间的关系。然而,在实际场景中,点云的分布往往受到全局空间的影响,因此需要考虑点与全局空间之间的关系。 该方法基于已有的点云数据集,首先利用卷积神经网络对点云进行特征提取,以获取点与其周围点的局部关系。然后,引入一个扩散概率模型,用于建模点与全局空间之间的关系。 扩散概率模型是一种概率模型,用于衡量点在全局空间中的分布。它基于点云生成的任务,通过最大似然估计来学习模型参数。在生成阶段,通过采样扩散概率模型,可以生成逼真的3D点云。 实验结果表明,该方法在各种点云生成任务上具有很好的效果。与传统方法相比,它能够更准确地还原真实场景中的点云分布,生成更逼真的模型。 综上所述,《3D点云生成扩散概率模型》是一种基于点与全局空间之间关系的方法,用于生成逼真的3D点云模型。它通过引入扩散概率模型,能够更精确地模拟点云分布,生成更逼真的结果。这一方法在点云生成任务中具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值