李宏毅生成式AI课程——Diffusion Model(1)

Diffusion Model

图像生成模型在做什么?

在这里插入图片描述

从一个便于采样的分布(P.S. 高斯分布)从采样一个向量z,通过生成网络G(z)得到x,x服从某一分布p(x),希望p(x)与真实世界中某一类图像的分布,从而保证生成图像x接近真实图像。

在这里插入图片描述

实际应用中,我们还会添加自然语言描述作为条件,但这并不改变整体结构。

一般优化目标

在这里插入图片描述

我们通过参数化网络来学习如何实现p(x),或者说基于参数 θ \theta θ 的网络模型在尝试拟合分布p(x)。

在这里插入图片描述

从真实的数据分布 P d a t a P_{data} Pdata 中收集一系列的数据样本 x i x^i xi ,优化目标是最大化似然 P θ ( x i ) P_{\theta}(x^i) Pθ(xi) ,通过简单变形可以推出,最大化似然与最小化KL散度等价。(P.S. 经典结论)

但区别在于,前者不用考虑具体的 P d a t a P_{data} Pdata 是多少,而KL散度需要计算两个具体概率。换言之,最大化似然中我们只关注 P θ ( x i ) P_{\theta}(x^i) Pθ(xi) ,而这个结果是容易获得的,只需要网络前向推理就能得到, P d a t a ( x i ) P_{data}(x^i) Pdata(xi) 的值不需要计算。而KL散度的形式需要我们对两个概率值都有可行的计算方法。

与VAE的相似性

在这里插入图片描述

P θ ( x ) P_{\theta}(x) Pθ(x) 的展开式可以知道, P θ ( x ∣ z ) P_{\theta}(x|z) Pθ(xz) 是估计的难点。一个符合直觉的方式是,若生成的G(z)与真实的x相同,则赋值为1,否则为0。注意这里从什么角度来判断两张图片是相同的,或者说相似的,是从人的主观视角来评价。如果非常理性,有任何一个像素不同,都认为不相同,那么显然存在大量的结果都是0。但允许部分细节不同,而主体内容一致又很难量化。所以这是个棘手的问题。一种常见的做法是弱化这些判定条件,不再构造二元标签数据(也可以说,不再设计成分类问题),而是将G(z)看作某个高斯分布的均值。此时模型输出的图片不再是一个具体的采样结果,而是一个简单分布的平均结果。通过高斯分布的表达式可以知道,此时 P θ ( x ∣ z ) P_{\theta}(x|z) Pθ(xz) 正比于 e x p ( − ∥ G ( z ) − x ∥ 2 ) exp(- \left \| G(z)-x \right \|_2 ) exp(G(z)x2) 。此时,优化形式从分类问题转换成了回归问题。

这种设计带给我的启发是,我们在解决我们自己工作中的问题时,出于直觉,很容易设计一个分类模型,并构造数据。典型的场景就是二元分类问题。一方面可能面临数据分布不均,另一方面模型学习难度比较大。(P.S. 这里的难度大指的是网络在提取特征时,无法有效归纳出两个类别的典型特征,从而输出大量概率值为0.5或者极端全为0或全为1的情况。这种现象的原因很可能因为数据本身的差异就非常小,或者存在大量脏数据。)解决这一问题的方法之一,就是改变问题形式,将预测结果看作某一分布的均值,容许均值与标签真值存在一定的误差,最小化这一误差就可实现原优化目标。

在这里插入图片描述

这是VAE下界的推导,但提供的思想可以帮助我们推导其它工作中类似的问题。

Reference

  • 18
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值