[IDDPM] Improved Denoising Diffusion Probabilistic Models

本文探讨了对DiffusionProbabilisticModels(DDPM)进行优化的多种策略,包括改进log-likelihood、减少采样步骤、自适应方差学习、优化噪声调度、重要性采样和加速采样,以及通过增大模型规模以提高性能。
摘要由CSDN通过智能技术生成

1、目标

        对DDPM进行优化,重点优化log-likelihood

        1)competitive log-likelihoods + high sample quality

        2)减少采样步数,加速infer

        3)在high-diversity数据集,如imagenet上,获得了良好的结果

2、改进

        1)采样方差learnable

                DDPM采样的方差上界是\beta _{t},下界是\tilde{\beta _{t}},两者只有在t接近于0的时候才有较大的差异。而当T增大时,曲线接近于90^{\circ},此时方差\Sigma _{\theta }(x_{t}, t)对生成结果几乎没有影响,只有均值\mu _{\theta }(x_{t}, t)决定了分布。因此,通常情况下方差取常数值。

                

                然而,如果评估log-likelihood的话,会发现diffusion的最初几步对变分下限的影响最大。因此,还是有必要优化方差的取值。

                        

                可以将方差表示为上界和下界的线性插值

                

                网络学习向量\nu。尽管没有对\nu的值进行约束,最终得到的方差值仍旧是位于上下界之间。此时,loss函数为

                           

        2)优化噪声schedule

                                 

             线性增加噪声会导致后期图像噪声过大,对采样质量没有贡献。因此,改用余弦增加噪声的方式          

                        

                加入s有助于防止t=0时,为0。如果噪声过小,会导致网络预测\epsilon很困难。

                对比线性和余弦,可以看到,余弦方式对信息的破坏更加平缓。

                        

        3)基于重要性的采样

                ​​​​​​​        ​​​​​​​        

                训练时,实时更新过去的10个loss值。最开始的10个t均匀采样。

                相较于均匀采样t,训练loss更加平稳。

                        

                但是这种采样方式只有助于L_{vlb}的优化,对L_{hybrid}没有帮助。而且,log-likelihood的提升伴随的是采样质量的下降。

                该采样方式会导致DDIM结果严重下降。

        4)加速采样

                模型的采样步数是4000。为了将infer步数从T降低到K,可以将T均匀分为K份,用\bar{\alpha }_{S_{t}}来求解

                                        

                然后再求得 = 

        5)增加模型大小

                通过改变channel数目,并同步调整Adam学习率为(第一层channel数目为128时,lr=0.0001)

                ​​​​​​​        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值