一、VAE模型基础理论
1.1 VAE模型的核心作用
VAE(变分自编码器)是Stable Diffusion的三大核心组件之一,承担着图像压缩与重建的关键任务。其核心作用包括:
- 图像压缩:将输入图像(通常为512×512像素)编码为低维潜空间向量(Latent),压缩比可达8倍(如64×64×4通道)。
- 图像重建:将潜空间向量解码为像素级图像,实现从潜空间到视觉空间的映射。
- 色彩与细节控制:通过切换不同VAE模型,可调整生成图像的色彩表现、细节锐度和对比度。
1.2 VAE模型的技术架构
1.2.1 编码器(Encoder)
- 结构:由3个DownBlock模块、1个MidBlock模块和Res