014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models

1. Introduction

本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)

主要做法是在VQGAN增强版做diffusion。

在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。

本文的主要贡献:

  • 比VQGAN重建的效果更好,而且可以更有效地应用到高分辨率的生成。
  • LDE在不同的任务上有着比较好的表现。包括(unconditional image synthesis,inpainting,super-resolution)。而且比在像素空间的diffusion,采样的代价要更低。
  • 相比于之前在隐空间的方法,LDE不需要对隐空间做太多的正则化,而且可以有高保真的重建效果。
  • 可以以卷积的方式应用于多种条件生成任务。
  • 实现了一种基于cross-attention的条件机制,可以应用于多模态的训练。

2. Method

2.1 Perceptual Image Compression

其实也就是模型的第一个阶段,将原始图像编码到隐空间,也就是一种压缩。为了避免隐空间方差过大,作者采用了两种改进的方式,第一种是加入了KL散度的约束作为正则化,类似于VAE,要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化,类似于VQGAN。

2.2 Latent Diffusion Models

这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。

在这里插入图片描述

2.3 Conditional Mechanisms

对于多模态的条件输入,先用一个编码器 τ θ \tau_{\theta} τθ 将条件信息 y y y 比如文本,编码为中间的表示 τ θ ( y ) \tau_{\theta}(y) τθ(y) 然后与UNet的输出一起作cross-attention

在这里插入图片描述

3. 实验结果

首先尽管VQ正则化的重建效果比KL正则化略差,但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image,layout-to-image,semantic-to-image,super-resolution都能达到比较好的效果。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值