LDM: High-Resolution Image Synthesis with Latent Diffusion Models CVPR 2022

JennnyZhang

已于 2024-09-11 13:31:46 修改

阅读量1k

点赞数 8

分类专栏：论文精读文章标签： http 人工智能计算机视觉 Diffusion 超分辨率重建深度学习 CVPR

于 2024-09-11 13:31:30 首次发布

本文链接：https://blog.csdn.net/qq_53826699/article/details/142137452

版权

论文精读专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Perceptual Image Compression

Latent Diffusion Models

Generative Modeling of Latent Representations

Conditioning Mechanisms

💡首先训练好一个AutoEncoder自编码模型，把输入图片进行压缩转化到潜在空间（即感知压缩，将高维特征压缩到低维），然后在潜在空间进行diffusion操作，并在扩散过程引入条件机制，通过cross-attention的方法来实现多模态训练（即语义压缩）

Abstract

通过将图像形成过程分解为降噪自编码器的顺序应用，扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外，它们的形成过程允许引导机制来控制图像生成过程而无需再训练。然而，由于这些模型通常直接在像素空间中操作，优化功能强大的DM通常会消耗数百个GPU数天，而且由于顺序计算，推理也非常昂贵。为了在有限的计算资源上进行DM的训练，同时保持其质量和灵活性，本文将其应用于预训练的自编码器的潜在空间。与之前的工作相比，在这种表示上训练扩散模型第一次允许在复杂性降低和细节保留之间达到一个接近最优的点，极大地提高了视觉保真度。通过在模型结构中引入交叉注意层，LDM将扩散模型转化为强大而灵活的生成器，用于文本或边界框等一般的条件输入，并以卷积的方式实现高分辨率合成。LDM在图像修复和基于类别的条件图像合成方面取得了新的最好的结果，并在各种任务上具有很强的竞争力，包括无条件图像生成、文本到图像合成和超分辨率，同时与基于像素的DMs相比显著减少了计算需求。

Motivation

**计算资源的限制：**DM的计算成本、时间成本太高

➡️训练一个编解码网络AutoEncoder，将大分辨率图像编码到小空间再做DDPM，本质上是vq-vae

VQGAN，全称Taming Transformers for High-Resolution Image Synthesis，是一种用于高清图像生成的模型。它结合了Transformer和GAN（生成对抗网络）的优势，通过两阶段生成方法实现图像合成：先用基于CNN的VQGAN压缩图像，再用Transformer生成压缩图像。VQGAN改进自VQVAE，使用感知误差和基于图块的判别器提升图像清晰度。

Contribution

在显著降低计算成本的同时，LDM在多个任务(无条件图像合成、inpainting、超分辨率)和数据集上实现了具有竞争力的性能。与基于像素的扩散方法相比，还显著降低了推理成本
与之前的工作(同时学习编码器/解码器架构和基于分数的先验)相比，本文的方法不需要对重构和生成能力进行精确的加权。这确保了高忠实度的重建，需要非常少的潜空间正则化。

Method

作者提出通过压缩与生成阶段的显式分离来规避这一缺陷(见图2)。为了实现这一目标，作者使用了自编码器，该模型学习的空间在感知上与图像空间等效，但显著降低了计算复杂度。

通过离开高维图像空间，得到的DM计算效率更高，因为采样是在低维空间上执行的
利用了Unet模型的归纳偏差，这使得它们对具有空间结构的数据特别有效，因此减轻了以前方法所要求的激进的、降低质量的压缩的需求
本文得到了通用目的的压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，如单幅图像基于CLIP引导的图像合成

Perceptual Image Compression

本文的感知压缩模型基于之前的工作《Taming Transformers for High-Resolution Image Synthesis》（CVPR 2022）由感知损失和基于patch的对抗损失训练的自编码器组成。这确保了重建被限制在图像流形中，通过加强局部真实感并避免了仅依赖像素空间损失(如L2或L1)所带来的模糊。

GitHub - CompVis/taming-transformers: Taming Transformers for High-Resolution Image Synthesis

为了避免任意高方差的潜在空间，文中使用两种不同的正则化进行实验。

**KL正则：**将隐空间约束到标准正态分布，对学习到的潜在空间的标准正常值施加轻微的KL -惩罚,类似VAE。
**VQ正则：**在解码器中使用向量量化层[Neural Representation Learning]，但量化层被解码器吸收，从连续到离散，类似VQGAN（在decoder时丢弃量化层）因为后续DM的设计被用于处理学习到的潜在空间z = E(x)的二维结构，所以可以使用相对温和的压缩率并实现非常好的重构。

这与之前的工作形成了对比，之前的工作《Taming Transformers for High-Resolution Image Synthesis》（CVPR 2022）依赖于学习空间z的任意1D顺序来对其分布进行自回归建模，从而忽略了z的大部分固有结构。因此，本文的压缩模型更好地保留了x的细节

<aside> 💡

NOTE：本文LDM的潜在特征空间是通过pretrained model得到的

</aside>

Latent Diffusion Models

扩散模型是通过逐步对正态分布去噪来学习数据分布p(x)的概率模型，这对应于学习长度为T的马尔可夫链的反向过程。

Generative Modeling of Latent Representations

通过训练感知压缩模型，现在可以进入一个高效、低维的潜在空间，其中高频的、难以察觉的细节被抽象掉了。与高维像素空间相比，该空间更适合基于似然的生成模型，因为它们现在可以

专注于更重要的语义
在更低维、计算效率更高的空间训练

与以前在高度压缩、离散的潜在空间中依赖自回归、基于注意力的Transformer模型不同，LDM可以利用模型提供的图像特定的归纳偏差。这包括主要从2D卷积层构建底层UNet的能力，并使用重新加权的边界进一步将目标集中在与感知最相关的位置上。

模型的主干网络 εθ (◦, t) 被实现为以时间为条件条件的UNet。由于前向过程是固定的，因此可以在训练期间从 E 中高效地获得zt，并且可以通过 D 将来自 p(z) 的样本解码到图像空间。

Conditioning Mechanisms

与其他类型的生成模型类似，扩散模型原则上能够对p(z|y) 形式的条件分布进行建模。这可以通过条件去噪自编码器θ (zt, t, y)来实现，并为通过输入y（例如文本、语义图或其他图像到图像的转换）控制合成过程铺平了道路任务。

<aside> 💡

然而在图像合成背景下，将DM 的生成能力与除类别标签或输入图像的模糊版本之外的其他类型的条件相结合是迄今为止尚未充分探索的研究领域。

</aside>

为了预处理来自各种模式（例如语言提示）的 y，本文引入了特定领域的编码器τθ将 y 投影到中间表示τθ (y) ∈ RM ×dτ ，然后通过UNet 中间层的交叉注意力机制实现Attention机制

在图像条件对的基础上，我们通过

其中τθ和Eθ都是通过公式3进行联合优化的。这种条件化机制是灵活的，因为τθ可以与特定领域的专家一起参数化，例如当y是基于文本提示的Transformer。

Experiment

作者在CelebA-HQ、FFHQ、lsun - church和- bedroom上训练2562幅图像的无条件模型，并评估i)样本质量和ii)对数据集管的覆盖率，表1总结了结果。在CelebA-HQ上，LDM实现了最先进的FID为5.11，优于之前基于似然的模型和GANs。相比之下，LDM在固定空间中训练扩散模型，避免了在潜在空间上学习先验与重构质量之间权衡的困难。

景观图像的语义合成

使用LDM进行图像超分

使用LDM进行图像补全

Code

LDM：扩散模型，用于生成对应采样时间t的样本，核心代码如下：

    def p_losses(self, x_start, cond, t, noise=None):
        noise = ms.numpy.randn(x_start.shape)
        x_noisy = self.q_sample(x_start=x_start, t=t, noise=noise) // time=t时加噪后的样本
        model_output = self.apply_model(x_noisy, t, cond) // UNet预测的噪声，cond表示FrozenCLIPEmbedder生成的条件
 
        if self.parameterization == "x0":
            target = x_start
        elif self.parameterization == "eps":
            target = noise
        else:
            raise NotImplementedError()
 
        loss_simple = self.get_loss(model_output, target, mean=False).mean([1, 2, 3]) //计算预测noise与真实noise的损失值
 
        logvar_t = self.logvar[t]
        loss = loss_simple / ops.exp(logvar_t) + logvar_t
        loss = self.l_simple_weight * loss.mean()
 
        loss_vlb = self.get_loss(model_output, target, mean=False).mean((1, 2, 3))
        loss_vlb = (self.lvlb_weights[t] * loss_vlb).mean()
        loss += (self.original_elbo_weight * loss_vlb)
        
        return loss