DALL.E 2:
应用:
1.根据文字的描述来生成文本。
2.在图上的指定位置生成物体。
3.根据一幅图像生成相似的另一幅图像。
目前开源的情况:DALL.E mini
大流程:
text->(clip)text embedding->(prior)image embedding->(decoding)image
全部都是,扩散模型
图像生成模型:
GANs
真实性很高,但是多样性很少,只是通过初始噪声的不同来创造不同,而且训练不稳定,容易发生坍塌,并非概率模型,不知道分布
Auto Encoder(AE)
Denosing Auto Encoder(DAE),出现的根本原因是图像的冗余性太高了,就像 MAE一样,进行遮挡之后,模型还是可以提取很多有用的信息
bottleneck学到的特征不是一个概率分布,而是一个用于重建的特征
可以用于分类检测分割
(VAE)Varitional Auto Encoder:
学习到的bottleneck 是一个高斯分布,具有均值和方差,所以训练完成之后,从模型中进行采样,就可以生成图片。