论文地址:https://arxiv.org/abs/2112.10752
代码地址:https://github.com/CompVis/latent-diffusion
首先了解一下什么是隐空间(潜在空间):
隐空间(潜在空间):
是对数据进行压缩表示的技术,将高维数据映射到低维空间,保留关键特征,使相似数据点在隐空间更接近,便于模型学习和生成。
在视觉领域可将图像表示为低维特征向量用于训练各类模型,能降低存储和计算成本,提高模型泛化、鲁棒性和训练速度
在本研究中通过训练自动编码器构建,能更好利用扩散模型归纳偏差,让模型更关注图像语义重要部分,在低维空间高效计算
一 主要思想
扩散模型(DMs)直接在像素领域工作,优化和推断都很费时。为了在有限的计算资源上训练它们,LDM 先使用一个预训练好的 AutoEncoder,将图片像素转换到了维度较小的 latent space 上,而后再进行传统的扩散模型推理与优化。这种训练方式使得 LDM 在算力和性能之间得到了平衡
此外,通过引入交叉注意力,使得 DMs 能够在条件生成上有不错的效果,包括如文字生成图片,inpainting 等
二 背景
- 图像合成领域:发展迅速,但计算需求大,尤其是高分辨率复杂场景的合成极具挑战性
- 生成对抗网络(GAN):在生成高质量图像方面表现出色,但训练过程复杂且难以扩展到多模态数据
- 扩散模型(Diffusion Model):通过逐步去噪的方式生成图像,能建模复杂的数据分布,但在像素空间中优化需要大量计算资源,推理成本高
2.1 目标
- 控制计算成本:通过在潜在空间中应用扩散模型,显著降低高分辨率图像合成的训练和推理计算成本
- 在降低计算成本的同时,保持生成图像的高质量和细节
- 提高灵活性:通过引入交叉注意力层,使模型能够处理多种类型的条件输入(如文本、边界框等)从而在多种图像合成任务中表现出色
2.2 隐空间
- 第一阶段:感知压缩阶段
- 目标:删除高频细节,学习少数语义变化
- 方法:训练一个自动编码器(提供低维高效的表达空间)
- 优点:只需训练一次自动编码器,即可用于多个DM训练或者其他任务
- 第二阶段:语义压缩
- 方法:将transformer连接到DM的UNet骨干中,并启动基于token的调节机制
2.3 贡献:
- 高维数据扩展:对高维数据的扩展更出色,可以应用于高像素图像的高分辨率合成
- 降低计算成本:显著降低计算成本,特别是推理成本
- 简化正则化:不需要对重建和生成能力进行加权,几乎不需要对隐空间进行正则化
- 模型的可复用性:设计了一种基于交叉注意力的通用条件反射机制,实现了多模式训练
三 相关工作
3.1 生成模型用于图像合成
高维特性的图像现在对生成模型提出了挑战
- 生成对抗网络(GAN):
- 允许高效生成高分辨率图像,具有良好的感知质量
- 但优化困难,难以捕获完整数据分布
- 似然模型:
- 强调良好的密度估计,优化更稳定
- VAE和基于流的模型可以高效合成高分辨率图像,但样本质量不如GAN
- 自回归模型(ARM):
- 在密度估计中表现强劲,
- 但计算需求高的架构和顺序采样过程限制其只能用于低分辨率图像
- 扩散模型(DM):
- 通过去噪自编码器的层次结构,在密度估计和样本质量上取得了最新成果。
- DM的生成能力源于其对图像数据的归纳偏差,通常使用UNet作为神经网络骨干。
- 使用重加权目标训练的DM可以实现损失y压缩器的效果,允许在图像质量上进行权衡(允许以图像质量换取压缩能力)
对于DM的缺点:推理速度低和训练成本很高
提出LDM:适用于低维的压缩隐空间,在几乎不降低合成质量的情况下加快了推理速度
3.2 两阶段图像合成方法
为了解决单个生成方法的不足
- VQVAE:使用自回归模型在离散隐空间上学习表达性先验(使用条件可逆网络来提供不同域的潜在空间之间的通用转移)
- VQGANs:使用第一阶段的对抗和感知目标,将自回归变换器扩展到更大的图像
- 其他:使用条件可逆网络在不同域的潜在空间之间进行通用转换
两阶段方法与LDM模型对应部分的对比:
两阶段方法 | LDM | |
---|---|---|
计算成本 | 通常较高,尤其是第一阶段的训练 | 显著降低,特别是在高分辨率图像合成中 |
图像质量 | 取决于第一阶段的压缩效果和第二阶段的生成能力 | 保持高质量,甚至在某些任务中优于两阶段方法 |
灵活性 | 有限,通常依赖于特定的模型架构 | 高,通过交叉注意力层支持多种条件输入 |
模型复用性 | 低,通常需要针对每个任务重新训练 | 高,预训练的自编码器可以用于多个任务 |
处理高分辨率图像的能力 | 有限,通常需要大量的计算资源 | 强,可以在较低的计算成本下处理高分辨率图像 |
四 方法
4.1 感知图像压缩
- 目标
- 训练一个自编码器,将图像压缩到一个低维的潜在空间中,同时保留图像的感知特性
- 模型
- 自编码器由编码器 E 和解码器 D 组成。编码器将输入图像 x 编码为潜在表示 z,解码器将潜在表示 z 解码回图像 x~
- 训练
- 使用感知损失和对抗损失的组合来训练自编码器,确保生成的图像保真度高
- 正则化
- 通过KL正则化或向量量化(VQ)正则化来避免潜在空间的高方差
- 两种正则化方法,一种是KL-reg,另一种是VQ-reg
4.2 潜在扩散模型
- 目标
- 在潜在空间中训练扩散模型,以降低计算复杂度并提高生成图像的质量
- 模型
- 扩散模型基于潜在表示 z 进行训练,使用去噪自编码器的层次结构
- 训练
- 使用重加权的变分下界(ELBO)来训练扩散模型,优化去噪目标
- 架构
- 模型的神经网络骨干为时间条件的UNet,支持2D卷积层和交叉注意力层
- 模型的神经网络骨干为时间条件的UNet,支持2D卷积层和交叉注意力层
4.2 1 图像合成:
- 像素空间:
- 输入图像 x 通过编码器 E 转换为潜在表示 z
- 解码器 D 将潜在表示 z 转换回图像 x~
- 潜在空间:
- 潜在表示 z 通过扩散过程进行去噪,生成最终的潜在表示 zT
- 去噪过程由去噪 U-Net ϵθ 实现,通过多个去噪步骤逐步去除噪声
4.2.2 条件机制:
- 条件输入
- 可以是语义图、文本或图像等
- 通过特定领域的编码器 τθ 转换为中间表示
- 中间表示通过交叉注意力层与去噪 U-Net 的中间层结合
4.2.3 关键组件:
- 去噪U-Net ϵθ
- 使用交叉注意力层处理条件输入
- 通过多个去噪步骤逐步去除噪声,生成最终的潜在表示 zT
- 交叉注意力层
- 将条件输入的中间表示与去噪 U-Net 的中间层结合
- 通过查询 (Q)、键 (K) 和值 (V) 的机制实现注意力机制
- 跳跃连接
- 在去噪 U-Net 中使用跳过连接,保留特征信息
- 拼接
- 将条件输入与潜在表示拼接,作为去噪 U-Net 的输入
4.3 条件机制(控制)
- 目标
- 使扩散模型能够处理多种类型的条件输入,如文本、边界框等
- 方法
- 通过在UNet骨干网络中引入交叉注意力层,将条件输入 y 映射到中间表示,并与潜在表示 z 结合
- 实现
- 使用特定领域的编码器 τθ 将条件输入 y 编码为中间表示 τθ(y),并通过交叉注意力层与UNet的中间层结合
五 算法架构
- 自编码器(AE)
- 编码器:将输入图像编码为潜在表示
- 解码器:将潜在表示解码回图像
- 训练:使用感知损失和对抗损失,确保生成的图像保真度高
- 模型构建:
- 训练一个自编码器,将高维的图像数据压缩到一个低维的潜在空间中。
- 这个潜在空间保留了图像的感知特性,但去除了高频的、不易察觉的细节
- 扩散模型(DM)
- 潜在表示:使用自编码器的潜在表示作为输入
- 去噪过程:通过逐步去噪的过程生成潜在表示
- 训练:基于去噪目标的损失函数,优化模型参数
- 模型构建
- 在潜在空间中训练扩散模型,使其学习生成潜在表示
- 由于潜在空间的维度较低,训练过程更加高效
- 交叉注意力层:
- 条件输入:支持多种类型的条件输入
- 实现:通过将条件输入映射到中间表示,并通过交叉注意力层与扩散模型的UNet骨干网络连接
5.1 优点
- 降低训练和推理的成本,使得高分辨率图像合成变得更加可行
- 生成的图像质量和细节得到了更好的保留
- 通过交叉注意力层,模型能够处理多种类型的条件输入,适用于多种图像合成任务
- 模型复用性:预训练的自编码器可以用于多个不同的任务,而不需要针对每个任务重新训练
5.2 不足
- 顺序采样:LDM的顺序采样过程比GAN要慢
- 隐空间的局限性:在某些需要高精度像素级任务上,潜在空间的重构能力可能成为瓶颈
5.3 创新点
- 隐空间中应用扩散模型
- 显著降低了计算成本,同时保持了高质量的图像生成
- 交叉注意力层:
- 使模型能够处理多种类型的条件输入,提高了模型的灵活性和适用性
- 多任务适用:
- 通过预训练的自编码器,模型可以复用于多个不同的任务,提高了模型的复用性和灵活性
六 实验
在图像修复和类条件图像合成方面效果好
6.1 目的:
评估LDM在不同任务上的性能,比较LDM与现有方法的性能
6.2 图像生成
table1:LDM在无条件图像合成中的评估指标,包括FID、Precision和Recall
table2:MS-COCO数据集,LDM在文本到图像的合成任务的评估指标,包括FID和Inception Score (IS)
6.3 条件潜在扩散
table3:在ImageNet数据集,LDM在类条件图像合成任务中的评估指标,包括FID、Inception Score (IS)、Precision和Recall,以及模型参数数量和计算需求
6.4 超分辨率潜在扩散
ImageNet数据集
table4:不同模型在超分辨率任务中的性能比较,包括FID、IS、PSNR和SSIM指标
table5:不同超分辨率模型的性能比较,包括FID、IS、PSNR和SSIM指标
table6:在图像修复任务中,不同模型的训练和采样吞吐量,以及FID分数
6.5 结果:
广泛任务:在多种条件图像合成任务中,LDMs表现出色,与现有最先进方法相比具有竞争力
无需特定架构:这些任务无需针对特定任务设计的架构
七 结论
- LDM显著提高了去噪扩散模型的训练和采样效率,同时不降低生成图像的质量
- 通过交叉注意力机制,LDMs能够处理多种类型的条件输入,如文本、布局等