天才程序员周弈帆 | Stable Diffusion 解读（二）：论文精读

最新推荐文章于 2025-04-02 10:03:00 发布

双木的木

最新推荐文章于 2025-04-02 10:03:00 发布

阅读量3.5k

点赞数 38

分类专栏：深度学习拓展阅读 Diffusion Model专栏文章标签： stable diffusion 人工智能 python 计算机视觉深度学习算法 transformer

本文链接：https://blog.csdn.net/csdn_xmj/article/details/139551001

版权

本文来源公众号“天才程序员周弈帆”，仅用于学术分享，侵权删，干货满满。

原文链接：Stable Diffusion 解读（二）：论文精读

【小小题外话】端午安康！

在上一篇文章天才程序员周弈帆 | Stable Diffusion 解读（一）：回顾早期工作-CSDN博客中，我们梳理了基于自编码器（AE）的图像生成模型的发展脉络，并引出了Stable Diffusion的核心思想。简单来说，Stable Diffusion是一个两阶段的图像生成模型，它先用一个AE压缩图像，再在压缩图像所在的隐空间上用DDPM生成图像。在这篇文章中，我们来精读Stable Diffusion的论文：High-Resolution Image Synthesis with Latent Diffusion Models。

注意：如果你从未学习过扩散模型，Stable Diffusion并不是你应该的读的第一篇论文。请参照我的上一篇文章天才程序员周弈帆 | Stable Diffusion 解读（一）：回顾早期工作早期工作总结，至少在学会了DDPM后再来学习Stable Diffusion。

1 摘要与引言

论文摘要的大意如下：扩散模型的生成效果很好，但是，在像素空间上训练和推理扩散模型的计算开销都很大。为了在不降低质量与易用性的前提下用较少的计算资源训练扩散模型，我们在一个预训练过的自编码器的隐空间上使用扩散模型。相较以往的工作，在这种表示下训练扩散模型首次在减少计算复杂度和维持图像细节间达到几近最优的平衡点，极大地提升了视觉保真度。通过向模型架构中引入交叉注意力层，我们把扩散模型变成了强大而灵活的带约束图像生成器，它支持常见的约束，如文字、边界框，且能够以纯卷积方式实现高分辨率的图像合成。我们的隐扩散模型（latent diffusion model, LDM） 在使用比像素扩散模型少得多的计算资源的前提下，在各项图像合成任务上取得最优成果或顶尖成果。

整理一下。论文提出了一种叫LDM的图像生成模型。论文想解决的问题是减少像素空间扩散模型的运算开销。为此，LDM借助了VQVAE「先压缩、再生成」的想法，把扩散模型用在AE的隐空间上，在几乎不降低生成质量的前提下减少了计算量。另外，LDM还支持带约束图像合成及纯卷积图像超分辨率。

在上一篇回顾LDM早期工作的文章天才程序员周弈帆 | Stable Diffusion 解读（一）：回顾早期工作中，我们已经理解了LDM想解决的问题及解决问题的思路。因此，在读完摘要后，