High-Resolution Image Synthesis with Latent Diffusion Models 稳定扩散模型论文笔记

本文提出了一种结合变分自动编码器(VAE)的扩散模型(LDMs),通过在隐空间进行扩散过程,减少计算资源的消耗,同时保持图像生成质量。LDMs还引入了交叉注意力机制,支持多模态条件生成。实验表明,LDMs在效率和生成质量上优于GANs和部分扩散模型,适用于图像生成、超分辨率和修复等任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、研究现状

       早期图像生成方法主要是变分自动编码器(Variational Autoencoders, VAEs),该算法利用编码器和解码器以及变分推断的方法学习隐空间到真实图像空间的映射从而完成图像的生成。其优势是特征空间可迁移并且训练较为稳定,但是不容易进行模型评估,当输入的图像数据的分布情况复杂时,其学习到的特征泛化能力不足,而且生成的图像模糊。

       生成对抗网络(Generative Adversarial Networks, GAN)通过生成器与判别器的动态博弈来优化模型,允许以良好的感知质量对高分辨率图像进行有效采样,生成的图像比较清晰。但该方法模型训练不稳定并难以捕捉完整的数据分布。

       最近,扩散模型(Diffusion Model, DM)在分布估计和生成样本质量方面取得了最先进的结果。扩散模型一步一步地向原始数据中加入高斯噪声来破坏训练数据,随后训练神经网络来扭转整个破坏过程,即通过逐渐去噪过程直至消除掉噪声,从而将纯噪声转化为高质量图像。但该模型依赖于长的马尔可夫链的扩散步骤来产生样本,计算资源和时间占用过高。

二、研究出发点

        扩散模型属于基于最大似然估计的生成模型类,容易花费过多的计算资源来学习数据中难以察觉的细节。尽管可以通过对相应损失项的低采样忽略感知上无关紧要的细节,但这一步仍然需要在像素空间中进行昂贵的函数计算,这导致了巨大的计算时间和能源需求。

       因此,本文提出将VAE与DM结合,把压缩感知信息与生成图像的过程分离来避免这一缺陷。

三、创新点

1.通过自动编码器(Autoencoder, AE)压缩数据,将扩散过程在隐空间(Latent Space)进行,极大地减小了扩散模型的计算量,并保持生成图片的质量不变。

       模型结构如上图所示。在训练过程中,输入样本的x通过AE的Encoder进行压缩至隐空间。扩散模型的正向扩散和反向生成过程都是在隐空间进行完成的。

      具体来说,给定图像  ,我们可以先利用一个编码器  来将图像编码到潜在表示空间  ,其中  ,然后再用解码器从潜在表示空间重建图片  。在感知压缩压缩的过程中,下采样因子的大小 f=H/h=W/w  。

        这种方法的另一个显著优势是,自编码器只需训练一次或采用预训练的模型,因此可以将其用于训练多次DM完全不同的任务。这使得对各种图像到图像和文本到图像任务的大量扩散模型的有效探索成为可能。

2.设计了一种基于交叉注意力的通用条件生成控制机制,能够实现多模态的训练。

       为了进行有条件的图片生成,即根据控制信息来指导反向去噪过程,需要拓展得到一个条件时序去噪自编码器(conditional denoising autoencoder)  ,通过 y 来控制图片合成的过程。

        具体来说,论文通过在UNet主干网络上增加交叉注意力机制来实现 。为了能够从多个不同的模态预处理 y ,论文引入了一个领域专用编码器(domain specific encoder)  ,它用来将 y 映射为一个中间表示 ,以引入各种形态的条件,如文本、类别等。最终模型就可以通过一个交叉注意力层映射将控制信息融入到UNet的中间层,交叉注意力层的实现如下:

              

                   

 

四、实验设计及验证 

本文实验主要验证了LDMs(Latent Diffusion Models)模型的性能。本文设计了大量的对比实验,分别对压缩比率因子、隐空间有效性、条件扩散进行了验证。并测试了该模型在超分辨率、图像修复等任务中的表现。

实验一:感知压缩权衡(Perceptual Compression Tradeoffs)

      调整AE中encoder下采样f,如果f=1那就等于没有对输入进行压缩,本文对比了f在{1,2,4, 8, 16, 32}下的效果,如果f越大,则信息压缩越严重,会造成图片失真,但是训练资源则占用越少,反之f约小则训练的会越慢。对比实验的结果如下图所示。

      可见,f在{4-16}之间可以比较好的平衡效率与视觉感知效果。作者重点推荐了LDM-4和LDM-8。

实验二:对比生成图片的质量

       本文对LDMs的样本生成能力从两方面进行对比实验,一是生成样本的质量,二是生成样本的多样性。实验数据使用的是CelebA-HQ、FFHQ和LSUN-Churches/Bedrooms,实验结果如下图所示。

       其效果超过了GANs和LSGM,并且对于比同为扩散模型的DDPM效果要好,与ADM的效果接近,说明了隐空间的确保留了主要的特征信息。

 

实验三:条件扩散

      本文通过在Unet模型结构上添加交叉注意力机制的方式可以适配多类条件的图像生成任务,例如text-to-image任务上,训练数据为LAION-400M,文章展示了实验结果如下:

实验四:模型的通用性

       作者测试了LDMs在根据语义信息生成图像、图像超分辨率及图像修复等应用方向上的性能,均取得了极佳的效果。

 

 五、论文结论

  1. LDMs可以显著提高去噪扩散模型的训练和采样效率,而不降低模型的质量。

      2. LDMs可以在诸多图像生成任务中显示出优于先有方法的性能。

六、不足之处

  1. 该模型仍是一个大模型,有着高达859M的参数量。
  2. 模型生成的图片中存在许多“似是而非”的物体,说明模型并不真正理解各个物体的形态,可以通过更细致的标签或是引入先验的物体结构模型解决这一问题。
  3. 生成的图片中有的并不符合透视法,或在空间结构上不符合客观规律。针对这一问题,可以将扩散模型与NeRF相结合,将二维图像升维成三维结构后再投影到二维来解决遮挡等空间推理问题。
<think>嗯,用户需要找Latent Diffusion Model中UNet的结构图或示意图。首先,我应该回忆一下Latent Diffusion Model的基本架构,特别是UNet在其中扮演的角色。Latent Diffusion Model,比如Stable Diffusion,主要分为三个部分:VAE、CLIP文本编码器和UNet。UNet负责在潜空间中进行去噪,这是扩散模型的核心步骤。 接下来,我需要描述UNet的结构。通常,UNet是一个编码器-解码器结构,带有跳跃连接。编码器部分通过下采样逐渐减少空间维度,同时增加通道数,以捕获高层次的特征。解码器部分则通过上采样恢复空间维度,并利用跳跃连接融合编码器中的特征,帮助保留细节信息。此外,UNet中可能包含注意力机制,尤其是在处理文本条件时,会使用交叉注意力层将文本嵌入与图像特征结合。 用户可能需要具体的结构图,但直接生成图片在这里不可行,所以需要建议他们查阅相关论文或资源。例如,Stable Diffusion的原始论文High-Resolution Image Synthesis with Latent Diffusion Models》应该有详细的图示。另外,像Hugging Face的Diffusers库文档或GitHub仓库可能提供结构图。还可以推荐一些博客文章或教程,比如Jonathan Whitaker的关于Stable Diffusion内部原理的文章,通常会有示意图帮助理解。 在回答时,要确保符合用户给的格式要求,比如数学表达式用$...$,独立公式用$$...$$,并且正确引用资料。比如,在提到Q-Former时,引用之前提供的资料。同时,生成相关问题,可能涉及UNet的作用、扩散模型的优势、潜空间的好处,以及与其他模型如Transformer的比较。</think>### Latent Diffusion Model中的UNet架构 Latent Diffusion Model(LDM)的核心组件是UNet网络,用于在潜空间(latent space)中逐步去噪。其结构设计结合了传统UNet的编码器-解码器框架与注意力机制,支持多模态条件输入(如文本、图像)[^1]。 #### 核心结构特点 1. **编码器-解码器架构** - 编码器:通过卷积层逐步下采样,压缩空间维度(例如从$64 \times 64$到$8 \times 8$),提取多尺度特征 - 解码器:通过转置卷积上采样恢复分辨率,并与编码器的跳跃连接(skip connections)融合特征 2. **注意力机制** - **自注意力层**:在中间层引入Transformer的自注意力模块,增强全局特征交互 - **交叉注意力层**:将文本嵌入(如CLIP输出)与图像特征对齐,实现条件生成[^1] 公式表示: $$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V$$ 其中$Q$来自图像特征,$K/V$来自文本条件 3. **时间步嵌入** 通过正弦位置编码将扩散过程的时间步$t$注入网络,控制去噪节奏 #### 示意图获取建议 1. **论文资源** 参考Stable Diffusion原始论文High-Resolution Image Synthesis with Latent Diffusion Models》(CVPR 2022)中的Figure 3,包含UNet结构示意图[^1] 2. **开源代码库** Hugging Face的`diffusers`库文档提供了UNet的层级定义(搜索`UNet2DConditionModel`) 3. **技术博客** 例如Jonathan Whitaker的《The Illustrated Stable Diffusion》详细图解了UNet的跨尺度连接与注意力模块 ```python # UNet条件输入示例(伪代码) class UNet(nn.Module): def forward(self, x, t_emb, text_emb): # x: 潜空间噪声 # t_emb: 时间步嵌入 # text_emb: 文本条件嵌入 x = self.down_blocks(x, t_emb, text_emb) # 编码 x = self.mid_block(x, t_emb, text_emb) # 中间层(含注意力) x = self.up_blocks(x, t_emb, text_emb) # 解码 return x ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值