扩散模型发展小结

DALL.E2是一种能根据文字描述生成图像的模型,包括从文本到图像的转换、在图像上添加物体以及生成相似图像。它使用扩散模型,如DDPM,来处理图像生成,克服了GANs的多样性问题和训练不稳定性。此外,文章还提到了VAE、VQ-VAE等其他图像生成方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DALL.E 2:

应用:

1.根据文字的描述来生成文本。
2.在图上的指定位置生成物体。
3.根据一幅图像生成相似的另一幅图像。

目前开源的情况:DALL.E mini

大流程:

text->(clip)text embedding->(prior)image embedding->(decoding)image

全部都是,扩散模型

图像生成模型:

GANs

真实性很高,但是多样性很少,只是通过初始噪声的不同来创造不同,而且训练不稳定,容易发生坍塌,并非概率模型,不知道分布

Auto Encoder(AE)

Denosing Auto Encoder(DAE),出现的根本原因是图像的冗余性太高了,就像 MAE一样,进行遮挡之后,模型还是可以提取很多有用的信息
bottleneck学到的特征不是一个概率分布,而是一个用于重建的特征
可以用于分类检测分割

(VAE)Varitional Auto Encoder:

学习到的bottleneck 是一个高斯分布,具有均值和方差,所以训练完成之后,从模型中进行采样,就可以生成图片。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KingsMan666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值