生成式AI(4): 扩散模型的性能、应用和影响_生成式扩散模型的应用-CSDN博客

本文链接：https://blog.csdn.net/tilblackout/article/details/147000367

在上一篇文章中，我们介绍了去噪扩散模型之前向扩散和反向去噪，而在过去几年中，扩散模型逐渐成为生成模型领域的核心力量。它们不仅在图像生成任务中取得了与 GANs 相媲美甚至更强的表现，也为学术界和工业界带来了全新的研究方向。本篇文章将围绕扩散模型的性能评估、实际应用示例，以及近年来的一些重要改进方向进行总结与分析，帮助大家快速了解扩散模型在实际生成任务中的表现与演化。

1 DDPM 效果表现

DDPM 能够在多种数据集上生成高质量、多样性的样本，如下图所示。

在这里插入图片描述

不过，DDPM 的效果也受限于所使用的数据集。例如在下图中，模型被训练在包含 Shutterstock 图片的数据集上，因此能够“还原”出 Shutterstock 的水印。又如在 LSUN-Beds 的样本中，左下角的图像甚至包含了 Logo，这说明模型从含有 Logo 的图像中学到了类似的内容。

在这里插入图片描述

优点与缺点

DDPM 能够生成高质量、多样化的图像样本，不像 Autoencoders 或 VAEs 那样容易生成模糊结果，也不像 GANs 那样会出现模式崩溃(mode collapse)问题。然而，DDPM 的一个明显缺点是采样速度慢，因为它必须一步步完成反向去噪过程。

2 Latent Diffusion

2.1 简介

Latent Diffusion 是一种用来加速扩散过程的方法，Stable Diffusion 模型就是基于该技术。

如下图所示，回忆一下自编码器的基本流程：我们首先将输入图像 $x$ 编码为潜在表示 $z$ ，然后再通过解码器将其还原为 $x^{'}$ 。

在这里插入图片描述

Latent Diffusion 的关键在于：它将扩散和去噪过程放在潜在空间中完成，而不是直接在图像空间操作。这样可以显著提升采样效率。

潜在空间（Latent Space）是原始数据在经过编码后映射到的一个低维抽象空间，它保留了数据的核心特征。

假设你有一张猫的图片，它是 $128 \times 128$ 像素，RGB 三通道，总共包含 $128 \times 128 \times 3 = 49152$ 个数。

这些像素点虽然详细，但对于理解“这是一只猫”来说，其实信息是冗余的。我们人类可能只需要注意：

是猫
是橘色的
在沙发上

这些抽象的特征就可以用一个更短的向量来表示，比如一个 $\in \mathbb{R}^{256}$ 的向量。这个向量就是在潜在空间中的表示。

具体来说，输入图像 $x$ 首先通过编码器 $E$ 映射为潜在表示 $z$ ，然后在 $z$ 上添加噪声生成 $z_T$ ，再通过模型去噪还原为 $z$ ，最终通过解码器 $D$ 还原为图像 $x^{'}$ 。

由于去噪过程是在更低维的潜在空间中完成的，采样速度也因此大幅提升。

在这里插入图片描述

Latent Diffusion 还支持 条件图像生成(Conditional Image Generation）。用户可以提供一条提示(prompt)，来描述期望生成的图像，例如文字、其他图像、语义分割图或其他形式的条件输入。

这些条件输入会通过一个编码器 $\tau_\theta$ 编码后，作为额外信息注入到扩散模型中。这个编码后的向量会在去噪过程的每一个时间步 $t$ 中，与当前的潜在表示 $z_t$ 进行多头交叉注意力(cross-attention)，以强化对 prompt 的响应。

简单来说，多头注意力会突出那些与 prompt 匹配的特征，随着去噪过程的进行， $z_t$ 会逐渐变成一个与 prompt 吻合的潜在表示，最终通过解码器生成目标图像。

在这里插入图片描述

在采样阶段（也就是生成图片时），整个流程可以进一步简化：

和 DDPM 一样，我们从标准高斯分布中采样得到初始的 $z_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$
如果用户提供了条件 prompt，就会通过编码器得到其表示
然后在 $T$ 步的去噪过程中，逐步将 $z_T$ 还原为 $z$
最后将 $z$ 输入解码器，生成图像 $x^{'}$

这个机制正是 Stable Diffusion 能够“根据文字生成图像”的核心原理。

2.2 应用

Latent Diffusion 模型不仅能生成高分辨率、多样性的图像，还可以适用于多种任务，例如：

文字生成图像(Text-to-Image)
语义图生成图像(Semantic Map to Image)
图像修复(Inpainting)等

这主要得益于它在潜在空间中的扩散与去噪操作，既高效又具表现力。

下图展示了 Latent Diffusion 模型在 LSUN-Churches 和 LSUN-Beds 数据集上的图像生成结果：

在这里插入图片描述

可以发现，在 LSUN-Churches 样本中，某些图像还保留了训练数据中的水印特征，例如白线或彩色螺旋等。这说明数据集的质量仍会影响最终效果。

条件图像生成：文字转图像（Text-to-Image）

Latent Diffusion 模型支持根据文本 prompt 来生成图像，这种方式被称为 Text-to-Image。

Prompt: A painting of the last supper by Picasso

结果如下图所示：
在这里插入图片描述

条件图像生成：语义图(Semantic Map)

语义图是一种将图像划分为不同区域并赋予语义标签的图。例如：

红橙色区域表示“天空”
灰色区域表示“树木”

Latent Diffusion 可以根据这些语义图生成对应图像，实现从抽象语义结构到真实画面的映射，非常适用于城市街景等任务。

💡 这种方式可以看作是“语义图转图像”（Semantic Map to Image），在自动驾驶场景理解、图像翻译等领域非常实用。

在这里插入图片描述

条件图像生成：图像修复(Inpainting)

Inpainting 是指在图像的一部分被遮挡或删除后，模型根据上下文填补该区域，使其看起来像是从未缺失。这项任务在图片修复、背景重建等场景中尤为重要。

下图展示了几个典型示例：

前两行中，人像被遮挡，模型自动补全背景，使得整张图自然协调；
第三行中，一棵树被遮挡，模型则还原了后面的建筑细节。

在这里插入图片描述

3 扩散模型的影响

扩散模型带来了诸多创新和强大能力的同时，也引发了广泛的伦理和社会讨论：

1.数据偏见与输出偏差

扩散模型依赖的大规模训练数据可能包含偏见，例如性别、种族、文化等方面的不均衡，从而导致模型输出也具有偏向性（如只生成特定审美、肤色等）。

这些问题与所有大语言模型类似，是目前生成式 AI 伦理的核心挑战之一。

2.版权问题与法律争议

许多生成图像包含 水印或版权信息，表明模型可能学习了未经授权的数据：

3.工具变革与艺术产业冲击

生成式 AI 正在改变创作流程：

Adobe 于 2023 年 4 月发布 Firefly 测试版，支持：选区图像替换，视频背景编辑和设计模板生成

虽然这为创作者提供了强大工具，但也意味着传统创作与人工劳动的价值结构正在发生变化。

虽然扩散模型技术令人惊艳，但我们仍需认真思考它所依赖的数据来源、公平性问题、潜在的侵权风险，以及它对社会和创意工作者的长期影响。

4 总结

扩散模型以其强大的生成能力和稳定的训练特性，正在重塑生成模型领域的技术格局。从基础的 DDPM 到后续如 Latent Diffusion 等高效变体，我们看到了扩散模型在质量与效率上的持续突破。

尽管当前仍面临如采样速度较慢等挑战，但伴随着社区对结构、训练方法与潜在空间建模的不断优化，扩散模型的未来仍充满潜力。