论文阅读：High-Resolution Image Synthesis with Latent Diffusion Models

huzimu_

已于 2024-03-05 21:00:50 修改

阅读量1.4k

点赞数 22

分类专栏： # Stable Diffusion 文章标签：论文阅读 stable diffusion AIGC

于 2024-02-26 16:05:11 首次发布

本文链接：https://blog.csdn.net/huzimu_/article/details/136288014

版权

4 篇文章

订阅专栏

本文介绍了一种名为LDM的潜在扩散模型，它通过在压缩的潜在空间中优化来解决高分辨率图像合成中的计算效率问题。实验表明，LDM在保持高质量的同时显著减少了计算成本，适用于多种图像生成任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

High-Resolution Image Synthesis with Latent Diffusion Models

这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型（LDM），解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。
下图是LDM的结构流程图，从左到右的三个模块分别是：感知图片压缩（Perceptual Image Compression），潜在扩散模型（Latent Diffusion Model），和条件机制模块（Condition mechanism）。首先，原始图片 $x$ 在像素空间中被感知压缩模型压缩为潜在空间特征 $z$ ，然后，Unet通过扩散过程（向 $z$ 中添加噪声和去除噪声）重构了潜在空间特征 $z_t$ ，其被解码为输出图片 $\tilde{x}$ 。在这个过程中，条件机制将输入的条件（例如，文本，图片等）编码为嵌入特征。然后，利用cross-attention机制将条件输入注入到Unet结构中。

在一个压缩的潜在空间（compressed latent space）上优化的一个潜在扩散模型，可以高效和低开销地合成高分辨率的图片，在和cross-attention机制结合后，LDM可以有效应用于条件生成任务，包括文本生成图片等任务。

Diffusion Models（DMs) & UNet:
Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
cross attentions
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
UNet:
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
image compression
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR,abs/2012.09841, 2020

1、分析不同downsampling factors f 对LDMs性能的影响，包括FID，IS等指标（On Perceptual Compression Tradeoffs）
2、无条件图片合成评估：在不同数据集上，像素空间上训练的DMs和LDM在图片质量（FID）和有效性（Precision和Recall）上进行比较（Image Generation with Latent Diffusion）
3、条件图片合成评估（text-to-image, class-to-image, layout-to-image, image-to-image)（Conditional Latent Diffusion）

文生图

数据集：
unconditional：CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102]，and ImageNet [12]；

conditional：LAION-400M [78]
代码：https://github.com/CompVis/latent-diffusion