https://github.com/CompVis/latent-diffusion
1摘要
前一篇Diffusion算法明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或包围框,并以卷积方式实现高分辨率合成。LDMs在图像修补和类条件图像合成方面取得了新的最先进的分数,并在各种任务上获得了极具竞争力的性能,包括文本到图像合成,无条件图像生成和超分辨率,同时与基于像素的DMs相比,大大降低了计算需求。
2实现
尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节,但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了对计算时间和能量资源的巨大需求。论文引入压缩与生成学习阶段的显式分离来规避这一缺点 ,使用了一种自动编码模型,该模型学习的空间在感知上与图像空间等效,但大大降低了计算复杂度 。有以下几个优点:
1 通过离开高维图像空间,获得的 DMs 在计算上更有效,因为采样是在低维空间上执行的
2 利用了继承自其UNet架构的 DMs 的归纳偏差,这使得它们对于具有空间结构的数据特别有效 ,减轻了以往方法所要求的激进的、降低质量的压缩级别的需要
3 得到通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单幅图像CLIP指导生成
感知图像压缩 模块由一个结合感知损失和基于补丁的对抗目标训练的自编码器组成 ,其通过加强局部真实感来确保重建被限制在图像流形中,并避免仅依靠像素空间损失(如L2或L1目标)而引入的模糊。
输入图像 ,编码器 编码为潜变量,解码器从潜变量中重构图像,即,其中,编码器按因子下采样,论文研究不同的下采样因子f = 2m, m∈N
为了避免任意高方差的潜在空间,尝试了两种不同的正则化
1 KL-reg 对习得潜变量的标准normal施加轻微的kl惩罚,类似于VAE
2 VQ-reg在解码器中使用矢量量化层,可以解释为一个VQGAN,但量化层被解码器吸收 。后续DM设计用于学习的潜在空间 的二维结构,所以可以使用相对温和的压缩率并实现非常好的重建
之前的工作依赖于学习空间z的任意1D顺序来对其分布进行自回归建模,从而忽略了z的大部分固有结构,而压缩模型更好地保留了x的细节
Latent Diffusion Models
原始DM为:
通过训练过的由 和D组成的感知压缩模型,现在可以获得一个有效的、低维的潜在空间,其中高频的、难以察觉的细节被抽象掉了 。与高维像素空间相比,这个空间更适合基于可能性的生成模型,因为它们现在可以专注于数据的重要语义位在低维、计算效率更高的空间中训练。
是时间条件的UNet ,由于正向过程是固定的,所以在训练过程中可以有效地从 中获得 ,并且 p(z) 中的样本可以通过D一次解码到图像空间。
Conditioning Mechanisms
3结论
提出了潜在扩散模型,这是一种简单有效的方法,可以在不降低扩散模型质量的情况下显著提高去噪扩散模型的训练和采样效率。基于这一点和交叉注意调节机制,实验可以在没有任务特定架构的情况下,在广泛的条件图像合成任务中,与最先进的方法相比,展示出良好的结果。