[IDDPM] Improved Denoising Diffusion Probabilistic Models

最新推荐文章于 2024-08-08 07:49:32 发布

emergency_rose

最新推荐文章于 2024-08-08 07:49:32 发布

阅读量865

点赞数 15

分类专栏： paper阅读笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30618203/article/details/137932197

版权

paper阅读笔记专栏收录该内容

60 篇文章 0 订阅

订阅专栏

本文探讨了对DiffusionProbabilisticModels(DDPM)进行优化的多种策略，包括改进log-likelihood、减少采样步骤、自适应方差学习、优化噪声调度、重要性采样和加速采样，以及通过增大模型规模以提高性能。

摘要由CSDN通过智能技术生成

1、目标

对DDPM进行优化，重点优化log-likelihood

1）competitive log-likelihoods + high sample quality

2）减少采样步数，加速infer

3）在high-diversity数据集，如imagenet上，获得了良好的结果

2、改进

1）采样方差learnable

DDPM采样的方差上界是 $\beta _{t}$ ，下界是 $\tilde{\beta _{t}}$ ，两者只有在t接近于0的时候才有较大的差异。而当T增大时，曲线接近于 $90^{\circ}$ ，此时方差 $\Sigma _{\theta }(x_{t}, t)$ 对生成结果几乎没有影响，只有均值 $\mu _{\theta }(x_{t}, t)$ 决定了分布。因此，通常情况下方差取常数值。

然而，如果评估log-likelihood的话，会发现diffusion的最初几步对变分下限的影响最大。因此，还是有必要优化方差的取值。

可以将方差表示为上界和下界的线性插值

网络学习向量 $\nu$ 。尽管没有对 $\nu$ 的值进行约束，最终得到的方差值仍旧是位于上下界之间。此时，loss函数为

2）优化噪声schedule

线性增加噪声会导致后期图像噪声过大，对采样质量没有贡献。因此，改用余弦增加噪声的方式

加入s有助于防止t=0时，为0。如果噪声过小，会导致网络预测 $\epsilon$ 很困难。

对比线性和余弦，可以看到，余弦方式对信息的破坏更加平缓。

3）基于重要性的采样

训练时，实时更新过去的10个loss值。最开始的10个t均匀采样。

相较于均匀采样t，训练loss更加平稳。

但是这种采样方式只有助于 $L_{vlb}$ 的优化，对 $L_{hybrid}$ 没有帮助。而且，log-likelihood的提升伴随的是采样质量的下降。

该采样方式会导致DDIM结果严重下降。

4）加速采样

模型的采样步数是4000。为了将infer步数从T降低到K，可以将T均匀分为K份，用 $\bar{\alpha }_{S_{t}}$ 来求解

然后再求得 =

5）增加模型大小

通过改变channel数目，并同步调整Adam学习率为（第一层channel数目为128时，lr=0.0001）

关注

15
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。