游戏AI研究所：一文看懂！VAE 在 Stable Diffusion 中到底干了什么？

本文链接：https://blog.csdn.net/m0_65079043/article/details/148233838

一。什么是 VAE？
VAE 是一种生成模型，由编码器和解码器组成。
编码器：将输入图像从高维的像素空间（如 512×512）压缩到低维的潜在空间（如 64×64），提取图像的核心特征。
解码器：将潜在空间中的表示还原为像素空间的图像。
这种结构使得模型能够在潜在空间中进行高效的图像生成和操作。

二。VAE 在 Stable Diffusion 中的作用？
在 Stable Diffusion 中，VAE 的主要功能包括：
1.图像压缩与还原：将图像编码到潜在空间，进行处理后再解码还原，提升生成效率。
2.提升图像质量：改善生成图像的色彩饱和度和细节表现，尤其是在面部、手部等细节区域。
3.与扩散模型协同工作：在潜在空间中进行扩散过程，提升生成图像的多样性和质量。
例如，使用 VAE 可以使生成的图像颜色更鲜艳、细节更清晰，改善面部和手部的表现。

原理：

假设Stable Diffusion 是一家大型图书馆，里面收藏了无数的图书（图像）。
编码器（Encoder）：就像图书管理员将厚重的图书内容提炼成简洁的索引卡片。这些卡片保留了图书的核心信息，便于快速查找和管理。
潜在空间（Latent Space）：是存放这些索引卡片的抽屉柜，结构紧凑，分类清晰。
解码器（Decoder）：当读者需要某本图书时，图书管理员根据索引卡片的信息，从书库中找到并取出完整的图书。

在这个过程中，VAE 作为图书管理员，确保图书的内容在压缩和还原的过程中尽可能少地丢失信息。（如下图）

1.原始图像（像素空间）：输入的高维图像数据，如 512×512 像素的图像。
2.VAE 编码器：将高维图像压缩为低维的潜在表示，提取图像的核心特征。
3.潜在空间表示（Latent Space）：图像在潜在空间中的表示，维度较低，便于处理。
4.扩散模型（U-Net）：在潜在空间中对图像进行去噪处理，生成更清晰的潜在表示。
5.去噪后的潜在表示：经过扩散模型处理后的潜在表示，准备还原为图像。
6.VAE 解码器：将去噪后的潜在表示解码为高维图像，恢复为人类可见的图像。
7.生成图像（像素空间）：最终输出的图像，具有更高的清晰度和细节表现。

三。如何使用 VAE？
在使用 Stable Diffusion 时，通常有以下几种情况：

默认 VAE：许多模型自带 VAE，无需额外操作。
外挂 VAE：对于一些模型，用户可以选择加载不同的 VAE，以改善图像质量。

例如 VAE 如下模型：
vae-ft-ema-560000-ema-pruned：提升图像清晰度。
vae-ft-mse-840000-ema-pruned：使图像更加平滑。

四。什么情况下决定是否需要使用 VAE？

需要使用 VAE 的情况：

生成图像颜色发灰、细节模糊时。

希望提升图像的色彩和细节表现。

不需要使用 VAE 的情况：

使用的模型自带高质量的 VAE，生成效果满意。

判断是否需要使用 VAE 的方法包括：

观察生成图像的效果，若颜色发灰、细节不足，考虑使用 VAE。

查看模型发布说明，了解是否推荐使用特定的 VAE。