背景
说到扩散模型的研究背景就不得不提到图像生成领域的三个重要阶段(参考易观AIGC产业研究报告2023),如下图所示。
目前最火的图像生成模型基本都是以扩散模型为基础的,去噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPM)是一类基于似然的模型,该模型具有强大的表达能力和灵活性,可以用来生成高质量图像。
扩散模型通过反转扩散过程迭代地对图像进行去噪,从随机采样的噪声开始,然后迭代一定数量的步骤,产生最终的图像样本,DDPM在图像生成和图像处理方面表现优越,特别是其在文生图领域的应用,研究证明扩散模型能够超越生成对抗网络,生成更稳定和更加多样的图片。
原论文:Denoising Diffusion Probabilistic Models
模型理论简述
从整体来看,扩散模型有两过程:扩散过程和生成过程,其中扩散过程也称为加噪过程,生成过程也称为去噪过程。
上图中从右往左为扩散过程,是从一组真实数据分布中采样,然后分T步对该样本叠加高斯噪声,最终得到一系列叠加过高斯噪声的样本。
同样,从左往右就是生成过程,是以标准高斯噪声为输入,不断的做去噪处理直至还原出一张有语义信息的图像。
扩散模型的核心问题是要求出一个后验分布q(x_t−1|x_t),经过相关推导可以发现该分布的方差为固定值,而均值项中只有噪声项是未知的,所以最后的目标是训练一个预测噪声的网络。(这段暂时看不懂也没事,看完后面的详细推导再看就明白了)
扩散过程
生成过程
优化目标
提示:优化目标的推导可能较为复杂,一次看不明白是正常的
有了优化目标就可以进行模型训练了,原论文中训练模型和生成图像的伪代码如下。
小结
扩散模型的实现其实不算复杂,但模型涉及到的数学理论较多。本文是博主在学习DDPM过程中结合原论文和其他优秀文章,总结的模型两过程和优化目标的数学推导,如有不足欢迎指正。
博主在实现DDPM时,参考代码:https://huggingface.co/blog/annotated-diffusion