扩散模型 - Diffusion Model【李宏毅2023】学习笔记 Part 1

最新推荐文章于 2024-09-22 14:48:38 发布

QianMo-WXJ

最新推荐文章于 2024-09-22 14:48:38 发布

阅读量582

点赞数 2

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangxiaojie6688/article/details/133323309

版权

本文介绍了生成式AI中的DiffusionModel，包括生成图片的过程，如从高斯分布采样、降噪（ReverseProcess）、FID值评估和U-Net在噪音预测中的作用。文章还提到了训练模型的挑战和评估指标，如图像分类模型的特征表示用于生成图的真实度判断。

摘要由CSDN通过智能技术生成

台大官方网站：ML 2023 Spring (ntu.edu.tw)

【生成式AI】Diffusion Model 概念讲解 (1/2)_哔哩哔哩_bilibili

PS：又出新课程了计算机发展太快了希望有机会再完整学一遍2233

正式开始上课---------------------------------------------------------

P1

生成图片的过程：从一个高斯分布中采样出一个vector，这个vector的维度跟你要生成的图片维度大小是一致的，比如256*256。将采样得到的矢量按照顺序拍成一张图片，随后进行多次降噪(Denoise)，多次降噪的过程被称为Reverse Process。以上过程类似于大理石雕塑传神！

输入除了采样得到的图像（在本案例中）还有一个数字表示还有进行降噪的次数（图片含噪音的严重程度）。

通过噪音预测生成的图片（理想状态下图片中仅含有杂讯）去减掉原本的输入，得到降噪后的图片。

产生一张图片和产生Noise其难度是不一样的，如果训练的Denoise Model能够产生带杂讯的猫，说明该模型几乎已经会画一只猫了。产生一张带杂讯的猫跟产生一张图片中的杂讯其难度是不一样的。End to End model 直接产生一张去噪后的图片是比较困难的。

输入的杂讯由人为产生（非图像研究方向，So..）通过多次增加杂质，图像愈发不清楚

这里噪音预测的内容即为随机生成的杂讯图。

P2

通常三个模型分开进行训练最后进行组合。

FID值越小，生成的图片越好 CLIP 越大越好文字编码的大小较影响生成图片的质量。这里的U-Net是指噪音预测模块的大小。在图b中，增大噪音预测模块的大小对模型性能提示有限。

现有一种训练好的图像分类的模型，得到cnn的特征representaion, 两者之间分布的距离表示真实图与生成图之间的相似程度。

检测文字和图片像不像的模型

注意步骤3不需要文字编码的输入

下一节讲数学原理了心情复杂。。。。。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

QianMo-WXJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。