生成扩散模型漫谈:统一扩散模型(理论篇)

22baf367dbe1cd2643faf386dc16ddd8.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

老读者也许会发现,相比之前的更新频率,这篇文章可谓是“姗姗来迟”,因为这篇文章“想得太多”了。

通过前面九篇文章,我们已经对生成扩散模型做了一个相对全面的介绍。虽然理论内容很多,但我们可以发现,前面介绍的扩散模型处理的都是连续型对象,并且都是基于正态噪声来构建前向过程。而“想得太多”的本文,则希望能够构建一个能突破以上限制的扩散模型统一框架(Unified Diffusion Model,UDM):

1、不限对象类型(可以是连续型 ,也可以是离散型的 );

2、不限前向过程(可以用加噪、模糊、遮掩、删减等各种变换构建前向过程);

3、不限时间类型(可以是离散型的 ,也可以是连续型的 );

4、包含已有结果(可以推出前面的 DDPM、DDIM、SDE、ODE 等结果)。

这是不是太过“异想天开”了?有没有那么理想的框架?本文就来尝试一下。

ecd3fdfc113836ce52da1b0d0b78bd09.png

前向过程

从前面的一系列介绍中,我们知道构建一个扩散模型包含“前向过程”、“反向过程”、“训练目标”三个部分,这一节我们来分析“前向过程”。

在最初的 DDPM 中,我们是通过 来描述前向过程的;后来,随着 DDIM 等工作的发表,我们逐渐意识到,扩散模型的训练目标和生成过程,都跟 没直接联系,反而跟 的联系更为直接,而从 推导 往往也比较困难。因此,一个更为实用的操作就是直接以 为出发点,也就是将 视为前向过程。

的最直接作用,就是用来构建扩散模型的训练数据,因此 的最基本要求是便于采样。为此,我们可以通过重参数

92b0dc47f5026f6f8a4ef525d1a88ea4.png

其中 是关于 的确定性函数, 是采样自某个标准分布 的随机变量,常见选择是标准正态分布,但其他分布通常也是可行的。可以想像,该形式包含了足够丰富的 到 的变换,它对 、 的数据类型也没有约束。一般情况下,唯一的限制是 越小, 所包含的 的信息越完整,换言之用 重构 越容易,反之 t 越大重构就越困难,直到某个上界 时, 所包含的 的信息几乎消失,重构几乎不能完成。

b25d5422a3e31c2b181f8a2c9bd98811.png

反向过程

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值