【达摩院OpenVI】AIGC技术在图像超分上的创新应用

团队模型、论文、博文、直播合集,点击此处浏览

一、背景

近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。

不过随着扩散模型DiffusionModel在理论和实践中的有效性得到越来越多的验证,在大数据、大模型的加持下,多模态学习发展如火如荼,促成了当今AIGC的火爆。同时以此为基础的视觉增强底层任务,也带来了一些突破性成果。今天重点给大家展示下,扩散模型在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!

二、方法

1.)经典算法Real-ESRGAN

先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN,如图1基本流程。

图1: 来源Real-ESRGAN: Training Real-World Blind Super-Resolutionwith Pure Synthetic Data

生成网络是ESRGAN的生成网络,保持不变,首先用L1 loss,训练以PSRN为导向的网络,获得的模型称为Real-ESRNet,然后Real-ESRNet的网络参数进行网络初始化,同时使用 L1 loss、perceptual loss、 GAN loss损失函数,训练最终的网络Real-ESRGAN。

训练数据可以自己收集,使用退化方法,构建样本对。细节的生成能力依托GAN的作用,GAN的生成能力的发展进化已经经历了多年,在此不做赘述,但从实际应用中看,对于图片生成的真实性和多样性仍然有待提升。

2.)扩散模型简介

扩散模型(DiffusionModel)近几年开始受到广泛的关注,下面可以通俗地以denoising diffusion probabilistic models(DDPM)为基础的扩散模型的基本原理。

图2: 来源Score-Based Generative Modeling through StochasticDifferential Equations

扩散模型的前向过程:不断给图片加噪声的过程。

扩散模型的逆向过程:一步步去除图片噪声的过程。

图3:来源 Denoising Diffusion ProbabilisticModels

DiffusionMolde的训练大致可以概括为,通过构建一个Unet网络,预测每一步加噪声的强度,通过理论推导,可以得知这个训练只需要使用L2loss监督。训练完成后,就可以从高斯噪声开始,根据逆向过程的采样方式,恢复出清晰图像。

近两年,越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

3.)扩散模型在图像超分上的应用

下面重点看下在图像超分辨率方向上扩散模型的应用。

a.)SR3 (Image Super-Resolution via Iterative Refinement )

这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单,直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导,得到对应的高分辨率图像SR。

图4: 来源Image Super-Resolution via Iterative Refinement

b.)LatentDiffusion(High-Resolution Image Synthesis with Latent DiffusionModels )

接下来重点介绍这个工作,LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间,减少了计算量,增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意:

图5:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

LatentDiffusion也就是如今大火的StableDiffusion的基本方案,技术框架大致如下图所示:

图6:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

基于latentdiffusion model的图像超分辨率方案,我们称做LDM-SR,和SR3的做法相似,这里直接将LR和Latenspace 噪声合并一起,输入到Unet,后面通过Decoder4倍上采样,生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值,并且视觉效果上更自然细腻。

图7:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

总体来说,基于扩散模型的超分辨率方案相比GAN,取得了长足的进步,在细节和纹理生成能力上上了一个大台阶。

4.)ours方法

达摩院开放视觉团队,在图像超分辨率技术上演进上,应用最新的Diffusion Model,搜集了大量几十万张高清图像数据集,训练了新的基于扩散模型的图像超分辨率模型,已经上线了,可以来试试效果吧。

体验地址:

生成式超分服务官网

达摩院视觉开放平台

下面给出几组,基于LDM-SR和Real-ESRGAN的效果对比,直观感受下吧!

原图

Real-ESRGANx4

LDM_SR x4

原图

Real-ESRGANx4

LDM_SR x4

三、总结与展望

LDM是Stable V1的基本构成,最新的工作StableDiffusion V2 ,将多模态技术引入了图像超分辨率方案中。文本信息的引导,使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线,继续关注达摩院最新技术发布!

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
达摩院是一个科技公司,拥有专业的研发团队,主要从事计算机软件和硬件的开发工作。对于Java面试经验,以下是一些可能的回答。 首先,达摩院在Java面试中通常会重点考察候选人的编程能力和Java语言的基础知识。因此,熟练掌握Java的语法、面向对象编程、多线程、异常处理等基本概念和技能是非常重要的。在面试前应该复习这些知识,并且准备一些常见的面试题目。 其次,达摩院在Java面试中也会关注候选人对于软件开发过程中的设计模式、数据结构和算法的理解和应用能力。为了做好准备,可以复习一些常用的设计模式如单例模式、工厂模式、观察者模式等,并且理解它们的应用场景和如何在实际项目中使用。 另外,达摩院还可能会考察候选人对于Java虚拟机(JVM)和垃圾回收机制的理解。这是因为在大规模的软件开发和性能优化中,对于Java虚拟机的配置和性能调优是非常重要的。因此,了解JVM内存模型、垃圾回收算法和相关性能优化工具是必备的知识点。 此外,达摩院可能会倾向于那些有实践经验的候选人。因此,在准备面试过程中,最好能够准备一些自己的项目经验,展示自己在实际工作中的能力和技术实现。 综上所述,达摩院在Java面试中主要关注候选人的编程能力、Java基础知识、设计模式和算法应用能力,以及对于JVM和垃圾回收机制的理解。备战面试时,需要提前准备,并且复习相关知识和实践经验,以展现自己的能力和潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值