扩散模型发展小结

DALL.E2是一种能根据文字描述生成图像的模型,包括从文本到图像的转换、在图像上添加物体以及生成相似图像。它使用扩散模型,如DDPM,来处理图像生成,克服了GANs的多样性问题和训练不稳定性。此外,文章还提到了VAE、VQ-VAE等其他图像生成方法。
摘要由CSDN通过智能技术生成

DALL.E 2:

应用:

1.根据文字的描述来生成文本。
2.在图上的指定位置生成物体。
3.根据一幅图像生成相似的另一幅图像。

目前开源的情况:DALL.E mini

大流程:

text->(clip)text embedding->(prior)image embedding->(decoding)image

全部都是,扩散模型

图像生成模型:

GANs

真实性很高,但是多样性很少,只是通过初始噪声的不同来创造不同,而且训练不稳定,容易发生坍塌,并非概率模型,不知道分布

Auto Encoder(AE)

Denosing Auto Encoder(DAE),出现的根本原因是图像的冗余性太高了,就像 MAE一样,进行遮挡之后,模型还是可以提取很多有用的信息
bottleneck学到的特征不是一个概率分布,而是一个用于重建的特征
可以用于分类检测分割

(VAE)Varitional Auto Encoder:

学习到的bottleneck 是一个高斯分布,具有均值和方差,所以训练完成之后,从模型中进行采样,就可以生成图片。

VQ-VAE

Vector Quantization Varitional-Auto-Encoder 仿照我们实际处理信号的时候,一般都是经过量化的截断信号,然后分布被定为一个codebook 是一个有长宽的图,相当于很多聚类中心,当我们得到一个新的特征向量的时候,我们去codebook中寻找距离最近的中心

但是实际上,这里还不能直接用于图像生成,code book还需要训练一个网络来和图像建立起对应关系。

扩散模型:

加噪声的反向操作

发展历程
DDPM(Denosing Diffusion Probabilistic Model):
两个贡献:
一:用xt预测xt-1转化为假设xt=xt-1+residual的形式residual这里就是噪声
(很像resnet)
二:发现预测正态分布的时候,不需要预测方差,预测正态分布即可,方差给一个常数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KingsMan666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值