©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络
在《生成扩散模型漫谈:统一扩散模型(理论篇)》中,笔者自称构建了一个统一的模型框架(Unified Diffusion Model,UDM),它允许更一般的扩散方式和数据类型。那么 UDM 框架究竟能否实现如期目的呢?本文先回顾 DUM 框架的一般流程,然后通过一些具体例子来演示其一般性。
框架回顾
首先,UDM 通过选择噪声分布 和变换 来构建前向过程
然后,通过如下的分解来实现反向过程 的采样
其中 就是用 预估 的概率,一般用简单分布 来近似建模,训练目标基本上就是 或其简单变体。当 是连续型数据时, 一般就取条件正态分布;当 是离散型数据时, 可以选择自回归模型或者非自回归模型。
至于 的最基准的选择就是
从这个基准出发,在不同的条件下可以得到不同的优化结果。当 关于 是可逆的,那么可以解出 ,然后得到更好的确定性采样方式
更进一步,如果 是标准正态分布,那么可以得到
热之扩散
现在这一节中,我们证明“热扩散模型”是 UDM 的一个特例,这里的热扩散(Hot Diffusion)指的是前面介绍的 DDPM、DDIM 等主流的扩散模型,这个称呼出自下面的“冷扩散”论文中。
主流扩散模型处理的是连续型数据,以加性正态噪声来构建前向过程:
的选择就是正态分布 ,一般不将 作为训练参数,所以略去常数项