游戏AI研究所:一文看懂!VAE 在 Stable Diffusion 中到底干了什么?

一。什么是 VAE?
VAE 是一种生成模型,由编码器和解码器组成。
编码器:将输入图像从高维的像素空间(如 512×512)压缩到低维的潜在空间(如 64×64),提取图像的核心特征。
解码器:将潜在空间中的表示还原为像素空间的图像。
这种结构使得模型能够在潜在空间中进行高效的图像生成和操作。

二。VAE 在 Stable Diffusion 中的作用?
在 Stable Diffusion 中,VAE 的主要功能包括:
1.图像压缩与还原:将图像编码到潜在空间,进行处理后再解码还原,提升生成效率。
2.提升图像质量:改善生成图像的色彩饱和度和细节表现,尤其是在面部、手部等细节区域。
3.与扩散模型协同工作:在潜在空间中进行扩散过程,提升生成图像的多样性和质量。
例如,使用 VAE 可以使生成的图像颜色更鲜艳、细节更清晰,改善面部和手部的表现。

原理:

假设Stable Diffusion 是一家大型图书馆,里面收藏了无数的图书(图像)。
编码器(Encoder):就像图书管理员将厚重的图书内容提炼成简洁的索引卡片。这些卡片保留了图书的核心信息,便于快速查找和管理。
潜在空间(Latent Space):是存放这些索引卡片的抽屉柜,结构紧凑,分类清晰。
解码器(Decoder):当读者需要某本图书时,图书管理员根据索引卡片的信息,从书库中找到并取出完整的图书。

在这个过程中,VAE 作为图书管理员,确保图书的内容在压缩和还原的过程中尽可能少地丢失信息。(如下图)

1.原始图像(像素空间):输入的高维图像数据,如 512×512 像素的图像。
2.VAE 编码器:将高维图像压缩为低维的潜在表示,提取图像的核心特征。
3.潜在空间表示(Latent Space):图像在潜在空间中的表示,维度较低,便于处理。
4.扩散模型(U-Net):在潜在空间中对图像进行去噪处理,生成更清晰的潜在表示。
5.去噪后的潜在表示:经过扩散模型处理后的潜在表示,准备还原为图像。
6.VAE 解码器:将去噪后的潜在表示解码为高维图像,恢复为人类可见的图像。
7.生成图像(像素空间):最终输出的图像,具有更高的清晰度和细节表现。

三。如何使用 VAE?
在使用 Stable Diffusion 时,通常有以下几种情况:

默认 VAE:许多模型自带 VAE,无需额外操作。
外挂 VAE:对于一些模型,用户可以选择加载不同的 VAE,以改善图像质量。

例如 VAE 如下模型:
vae-ft-ema-560000-ema-pruned:提升图像清晰度。
vae-ft-mse-840000-ema-pruned:使图像更加平滑。

四。什么情况下决定是否需要使用 VAE?

需要使用 VAE 的情况:

生成图像颜色发灰、细节模糊时。

希望提升图像的色彩和细节表现。

不需要使用 VAE 的情况:

使用的模型自带高质量的 VAE,生成效果满意。

判断是否需要使用 VAE 的方法包括:

观察生成图像的效果,若颜色发灰、细节不足,考虑使用 VAE。

查看模型发布说明,了解是否推荐使用特定的 VAE。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值