扩散模型发展小结

最新推荐文章于 2024-08-26 22:23:09 发布

KingsMan666

最新推荐文章于 2024-08-26 22:23:09 发布

阅读量399

点赞数

分类专栏：学习记录文章标签：聚类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsman666/article/details/127872534

版权

学习记录专栏收录该内容

9 篇文章 0 订阅

订阅专栏

DALL.E2是一种能根据文字描述生成图像的模型，包括从文本到图像的转换、在图像上添加物体以及生成相似图像。它使用扩散模型，如DDPM，来处理图像生成，克服了GANs的多样性问题和训练不稳定性。此外，文章还提到了VAE、VQ-VAE等其他图像生成方法。

摘要由CSDN通过智能技术生成

DALL.E 2:

应用：

1.根据文字的描述来生成文本。
2.在图上的指定位置生成物体。
3.根据一幅图像生成相似的另一幅图像。

目前开源的情况：DALL.E mini

大流程：

text->(clip)text embedding->(prior)image embedding->(decoding)image

全部都是，扩散模型

图像生成模型：

GANs

真实性很高，但是多样性很少，只是通过初始噪声的不同来创造不同，而且训练不稳定，容易发生坍塌，并非概率模型，不知道分布

Auto Encoder（AE）

Denosing Auto Encoder（DAE），出现的根本原因是图像的冗余性太高了，就像 MAE一样，进行遮挡之后，模型还是可以提取很多有用的信息
bottleneck学到的特征不是一个概率分布，而是一个用于重建的特征
可以用于分类检测分割

(VAE)Varitional Auto Encoder：

学习到的bottleneck 是一个高斯分布，具有均值和方差，所以训练完成之后，从模型中进行采样，就可以生成图片。

VQ-VAE

Vector Quantization Varitional-Auto-Encoder 仿照我们实际处理信号的时候，一般都是经过量化的截断信号，然后分布被定为一个codebook 是一个有长宽的图，相当于很多聚类中心，当我们得到一个新的特征向量的时候，我们去codebook中寻找距离最近的中心

但是实际上，这里还不能直接用于图像生成，code book还需要训练一个网络来和图像建立起对应关系。

扩散模型：

加噪声的反向操作

发展历程
DDPM（Denosing Diffusion Probabilistic Model）：
两个贡献：
一：用xt预测xt-1转化为假设xt=xt-1+residual的形式residual这里就是噪声
（很像resnet）
二：发现预测正态分布的时候，不需要预测方差，预测正态分布即可，方差给一个常数

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KingsMan666 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。