1、目标
对DDPM进行优化,重点优化log-likelihood
1)competitive log-likelihoods + high sample quality
2)减少采样步数,加速infer
3)在high-diversity数据集,如imagenet上,获得了良好的结果
2、改进
1)采样方差learnable
DDPM采样的方差上界是,下界是,两者只有在t接近于0的时候才有较大的差异。而当T增大时,曲线接近于,此时方差对生成结果几乎没有影响,只有均值决定了分布。因此,通常情况下方差取常数值。
然而,如果评估log-likelihood的话,会发现diffusion的最初几步对变分下限的影响最大。因此,还是有必要优化方差的取值。
可以将方差表示为上界和下界的线性插值
网络学习向量。尽管没有对的值进行约束,最终得到的方差值仍旧是位于上下界之间。此时,loss函数为
2)优化噪声schedule
线性增加噪声会导致后期图像噪声过大,对采样质量没有贡献。因此,改用余弦增加噪声的方式
加入s有助于防止t=0时,为0。如果噪声过小,会导致网络预测很困难。
对比线性和余弦,可以看到,余弦方式对信息的破坏更加平缓。
3)基于重要性的采样
训练时,实时更新过去的10个loss值。最开始的10个t均匀采样。
相较于均匀采样t,训练loss更加平稳。
但是这种采样方式只有助于的优化,对没有帮助。而且,log-likelihood的提升伴随的是采样质量的下降。
该采样方式会导致DDIM结果严重下降。
4)加速采样
模型的采样步数是4000。为了将infer步数从T降低到K,可以将T均匀分为K份,用来求解
然后再求得 =
5)增加模型大小
通过改变channel数目,并同步调整Adam学习率为(第一层channel数目为128时,lr=0.0001)