Why Latent Space better?——CVPR 2022 : High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models

Paper : https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html

Github : https://github.com/CompVis/latent-diffusion

Overview

Pipeline:

objective

这篇文章的重点就在于,为什么从pexel spacelatent space是可行的——在保证减少计算成本的前提下保留了大部分扩散模型的功能,在下一节Motivation会给出解释。

论文提出的模型其实相较于一般的扩散模型没有很大区别,采用模块化设计,可以看作在原始的扩散模型输入和输出地方加了编码、解码;在预测噪声的U-Net输入前也加入了一个domain specific encoder做为对条件输入的编码,其实在实验里提到:对于以对齐的图片为条件的(semantic synthesis, super-resolution and inpainting),采用的domain specific encoder就是第一阶段的encoder;对于文本条件,用的是unmasked Transformer

重点在实验,第一阶段的编码/解码器做了很多组(不同的下采样因子f、正则化KL-reg or VQ-reg);下游任务也涉及了很多,效果很好,有需要的可以去论文看看,这篇文章没放什么实验图。

Motivation

扩散模型近期展现了其强大的数据合成能力,但由于顺序计算,扩散模型的训练和推理成本都很高;如何以更低的成本使用扩散模型,同时保持生成结果的质量和灵活性?

首先看这张图(来自DDPM论文),失真在rate很小的时候近乎收敛,说明图像中大多像素位表示的是一种imperceptible(感觉不到的、极细微的)信息;
在这里插入图片描述

本文作者在这张图下结合了一组样本,看着会很形象:

本文作者认为,在像素空间的扩散模型企图通过优化一些具体的损失项来实现对这种细微像素的压缩表达,而且这样的计算往往在所有的像素上进行的;也就是说训练、推断时的很多计算开销都是不必要的。

所以作者提出,对于这些难以察觉的信息,先一步使用自编码器进行压缩,从而从图像中提取出富有语义信息的编码供扩散模型使用,最大程度上保留了扩散模型的编辑质量和能力。

Perceptual Image Compression

下采样因子f=H/h=W/w,实验中取值 f = 2 m f=2^m f=2m

实验中采取两种正则化:KL-reg,VQ-reg

Experiment on Perceptual Compression Tradeoffs

下采样因子f表示了编码器的压缩强度,f=1时对应于原始的像素空间的扩散模型。

这一节讨论的是不同f的取值,对于整体的实验结果会有那些损失 or 加强。

首先,编码器的压缩能力是越强越好吗?

先看结果,f=1时为基于像素空间的扩散,这导致需要相比于其他f取值,f=1需要更多的训练时间来达到收敛;f=32是不是最好呢?可以看到在少量的训练后便陷入停滞阶段,最终结果甚至不如f=1

所以并不是越高的下采样比越好,作者给出的解释:

  1. 需要把大部分感知压缩的工作留给后续的扩散模型;
  2. 第一阶段的压缩能力太强将导致信息损失,并且限制了可达到的质量。

所以,LDM-{4-16}的效果相对更好,在2M个训练step之后,LDM-8LDM-1FID差距高达38

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值