【StableDiffusion】StableDiffusion 扩散模型的原理、UNet 结构解析、Encoder、CLIP Encoder -＞ Prompt Embedding（概览）

MicroLindb

已于 2024-06-21 23:06:08 修改

阅读量4k

点赞数 36

分类专栏： AI_stableDiffusion 文章标签： stable diffusion prompt embedding AIGC UNet

于 2024-06-13 02:39:08 首次发布

本文链接：https://blog.csdn.net/qq_43768851/article/details/139640140

版权

AI_stableDiffusion 专栏收录该内容

9 篇文章

订阅专栏

StableDiffusion 结构总览

首先，sd 的核心是 UNet，还有 encoder 和 decoder。
我们按照顺序，从 Encoder、CLIP Encoder 和它们生成的内容开始讲起，从左到右。
分别为：
1、Encoder 的生成内容 Z 是什么
2、CLIP Encoder 的生成内容是什么（是 One-Hot 编码），它是怎么被 Prompt Embedding 转化为低维密集向量的。
（我的这篇博客讲了它是怎么被 Prompt Embedding 转化为低维密集向量的：https://blog.csdn.net/qq_43768851/article/details/139640188?spm=1001.2014.3001.5502）
3、UNet 结构概览，训练过程解析
在这里插入图片描述

一、RandomNoise → Encoder 之后生成的 Z 是什么？

在扩散模型（例如 Stable Diffusion）中，随机噪声通过编码器转化为的 Z 是一个潜在空间中的向量或张量。这个表示用于捕捉图像生成的初始状态，随着扩散过程的进行，逐步被转化为最终的生成图像。

1.Z 的格式和性质

格式：

向量或张量：Z 通常是一个多维张量（tensor）。它可以视为一个高维空间中的点，这个点包含了生成图像的初始信息。
尺寸：其尺寸通常与图像编码器的输出尺寸有关。例如，如果图像编码器输出的尺寸是 (C,H,W)，其中 C 代表通道数，H 和 W 分别代表高度和宽度，那么 Z 的尺寸也是 (C,H,W)。

性质：

随机性：初始的 Z 是从标准正态分布中采样得到的随机噪声。这个随机性保证了生成图像的多样性。
潜在空间表示：Z 表示了图像的潜在空间中的一个点。潜在空间是一个抽象的、高维的空间，捕捉了图像的高层次特征和结构。

2.生成过程中的 Z

在扩散模型的生成过程中，随机噪声（初始的 Z）逐步被转换为目标图像。这一过程可以分为以下几个阶段：

初始噪声生成：从标准正态分布中采样得到一个随机噪声张量，作为初始的 Z。
编码器：这个噪声通过编码器，被转换为一个潜在表示。这个编码器可以是一个简单的映射函数，也可以是一个复杂的神经网络。
扩散过程：在每个时间步，模型根据时间嵌入、文本提示的嵌入以及当前的潜在表示 Z，逐步更新这个表示，使其越来越接近目标图像的潜在表示。这个过程通过U-Net等神经网络架构完成，每一步都在潜在空间中进行小的调整。
解码器：经过多次迭代后，最终的潜在表示 Z′ 被输入到解码器中，解码器将其转换为最终的生成图像 X′。

3.潜在表示 Z 为什么是高维空间中的“点”？

其实，所谓的“点”，是从 572 * 572 * 1 变成了 32 * 32 * 1024，只是变小了，升维了而已

经过卷积之后，才会变成高维的小图像，而不是一开始就是高维

在图中，最开始的 Z 是一个格式为 572 * 572 * 1 的张量。这意味着 Z 是一个具有单通道（channel）的二维噪声图像。尽管它看起来是一个二维结构，但在扩散模型的上下文中，它仍然可以被理解为在一个高维空间中的点。这里有几个关键点可以解释这个问题：

高维空间的定义：

在机器学习和深度学习的上下文中，高维空间并不一定仅仅指向量的维数。它可以指的是特征的数量或描述数据结构的维数。
在这里，虽然 Z 是一个二维图像，但它的每个像素都可以看作是一个独立的维度。因此，572 * 572 的像素总数其实是 327,184 个channel==1的维度。

表示的多样性：

虽然 Z 初始是单通道的二维噪声图像，但在随后的扩散过程中，它会被处理和转换，逐渐演变为更高维的表示。
当 Z 被输入到扩散模型（例如 U-Net）时，模型的多个卷积层会逐步将低维表示转换为高维表示。例如，通过多个卷积操作，初始的单通道表示会变成多通道的特征图。

模型架构：

扩散模型的架构（如 U-Net）通过多层卷积和反卷积操作，将初始的低维噪声图像逐步转化为高维特征表示。每个卷积层的输出是更高维的特征图，这些特征图包含了更多关于图像的高层次信息。
在 U-Net 的跳跃连接（skip connections）中，低层次的特征会被传递到更高层次的特征，帮助模型更好地捕捉图像的细节。

4.举例说明

假设我们有一个初始的 572 * 572 * 1 的噪声图像：

初始状态：这是一个二维的噪声图像，每个像素值是随机的。
卷积操作：通过一系列的卷积操作，图像的通道数会增加。例如，第一次卷积后，图像可能变成 572 \times 572 \times 64，这意味着它被表示为 64 个不同的特征图，每个特征图都提取了不同层次的信息。
多层处理：随着更多的卷积层和池化层的应用，特征图的尺寸会逐渐变小，但通道数会增加。例如，经过几次卷积和池化操作后，图像可能变成 128 * 128 * 256。
高维表示：最终的高层次特征表示是一个更小尺寸但更多通道的张量，例如 32 * 32 * 1024。这个表示虽然在空间上是 32 * 32 的二维结构，但它有 1024 个通道，这实际上是一个高维空间中的点。