GAN的理论浅析(极大似然概率和KL散度)

希望找到一个数据集的真实概率分布

P_{data}(x)

 

现在,并不知道这个分布P_{data}(x)的数学式子是什么样的,但是可以从这个分布中采样,当收集到一组高质量的图片作为数据集的时候就是从这个真实的分布中采样。

于是现在有了一笔从P_{data}(x)中采样的数据

{x^{1}, x^{2},...., x^{m}\subseteq P_{data}(x)

然后,希望通过神经网络生成一个概率分布 P_{data}(x; \theta ) (\theta是参数),使得这个概率分布和真实的概率分布P_{data}(x)越接近越好,具体该怎么做呢?具体的做法就是求概率分布P_{data}(x; \theta )的极大似然估计。得到m个样本的可能性,把所有的可能性乘起来,就是总的值L

L= \prod_{i=1}^{m}P_{G}(x^{i}; \theta )   (1)

L的值越大,代表质量高图片的可能性越大。如何让L的值越大越好,就是要优化这个函数中的参数 \theta

\theta^{*}=argmax\prod_{i=1}^{m}P_{G}(x^{i}; \theta )=argmax\sum_{i=1}^{m}log(P_{G}(x^{i}; \theta ))(2)

这就是Generator中生成的概率分布中采样m个数据的似然估计,希望它能近似从P_{data}(x)中采样数据的期望

\theta^{*} =argmax E_{x\sim P_{data}}[log(P_{G}(x; \theta ))]

=argmax\int_{x} P_{data}(x)log(P_{G}(x; \theta ))dx(3)

为什么(2)式和(3)式近似相等呢?对真实样本进行采样后的期望实际上就是求平均因此(3)式子可以化成下面

argmax\int_{x} P_{data}(x)log(P_{G}(x; \theta ))dx(4)

=argmax \frac{1}{m} \sum_{i=1}^{m}log(P_{data}(x^{i} ))

化简后的式子是不是和式子(2)很相似,只不过多除了一个m,但由于m是一个常数,并不影响。

那为什要把式子(3)化成式子(4)呢,实际上化成式子(4)并不是最终目的。

把式子(4)减掉一个式子如下:

argmax\int_{x} P_{data}(x)log(P_{G}(x; \theta ))dx -\int_{x} P_{data}(x)log(P_{data}(x))dx

这里先说明减掉这个式子后对原本求\theta^{*}并没有影响,因为减掉的式子中并不包含\theta^{*},相当于减掉一个常数。

至于为什么要减掉这个式子,将上述的式子进一步化简:

argmax\int_{x} P_{data}(x)log(P_{G}(x; \theta ))dx -\int_{x} P_{data}(x)log(P_{data}(x))dx

=argmax\int_{x} P_{data}(x)(log(P_{G}(x; \theta ))-log(P_{data}(x)))dx

=argmax\int_{x} P_{data}(x) \frac{log(P_{G}(x; \theta))}{log(P_{data}(x))}dx

=-argmax\int_{x} P_{data}(x) \frac{log(P_{data}(x))}{log(P_{G}(x; \theta))}dx

=argmin\int_{x} P_{data}(x) \frac{log(P_{data}(x))}{log(P_{G}(x; \theta))}dx

=argminKL(P_{data}||P_{G})      (5)

于是本来要求极大似然估计式子(2)变成了求KL散度的最小值(5)

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值