这张图片展示了 Stable Diffusion 的工作框架。Stable Diffusion 是一种基于扩散模型的图像生成技术,能够从潜在空间中生成高质量的图像。下面是对该框架的详细解释:
框架组成
-
Conditioning(条件信息):
- 包含语义图(Semantic Map)、文本(Text)、表示(Representations)和图像(Images)等信息。
- 这些条件信息通过一个网络 τ θ \tau_\theta τθ编码,作为生成过程的辅助输入。
-
Latent Space(潜在空间):
- 扩散过程在潜在空间中进行。潜在空间表示通过噪声预测网络(Denoising U-Net ϵ θ \epsilon_\theta ϵθ)从初始噪声逐步去噪,生成图像的潜在表示。
-
Pixel Space(像素空间):
- 最终从潜在空间的表示通过解码器(Decoder