目录
SD的发展历程
Stable Diffusion是一个的文本条件隐式扩散模型(text-conditioned latent diffusion model),可以根据文字描述生成效果极好的图像。
2021年12月提出了隐式扩散模型(Latent Diffusion Models,LDMs)的text-to-image模型。这个研究使得用扩散模型进行文字生成图片任务可以在普通显卡上执行,并且耗时较短。为一年后现象级的稳定扩散(Stable Diffusion)诞生奠定了基础。
SD 模型的网络结构
主要包括三个部分:
ClipText 文本编码器
ClipText 文本编码器:用于解析提示词的 Clip 模型
文本编码器负责将提示词转换成电脑可以识别的文本向量
Diffusion 扩散模型
Diffusion 扩散模型:用于生成图像的 U-Net 和 Scheduler
扩散模型负责根据文本向量生成图像
VAE 模型
VAE 模型:用于压缩和恢复的图像解码器
而图像编码器则用于将生成的图像信息进行解码,以生成最终的图像输出