通俗易懂的Stable Diffusion模型结构介绍

文章介绍了StableDiffusion,一种基于文本条件的隐式扩散模型,通过CLIP文本编码器处理提示词,U-Net生成图像,VAE进行图像压缩。模型利用交叉注意力机制和VAE的解码器,有效提高图像生成效率和质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

SD的发展历程

SD 模型的网络结构

        ClipText 文本编码器

        文本向量输入Unet

        VAE模型

总结图


SD的发展历程

Stable Diffusion是一个的文本条件隐式扩散模型(text-conditioned latent diffusion model),可以根据文字描述生成效果极好的图像。

2021年12月提出了隐式扩散模型(Latent Diffusion Models,LDMs)的text-to-image模型。这个研究使得用扩散模型进行文字生成图片任务可以在普通显卡上执行,并且耗时较短。为一年后现象级的稳定扩散(Stable Diffusion)诞生奠定了基础。

SD 模型的网络结构

主要包括三个部分

ClipText 文本编码器

ClipText 文本编码器:用于解析提示词的 Clip 模型

文本编码器负责将提示词转换成电脑可以识别的文本向量

Diffusion 扩散模型

Diffusion 扩散模型:用于生成图像的 U-Net 和 Scheduler

扩散模型负责根据文本向量生成图像

VAE 模型

VAE 模型:用于压缩和恢复的图像解码器

而图像编码器则用于将生成的图像信息进行解码,以生成最终的图像输出

简化网络结构图

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

库尔特哥德尔的破壁人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值