希望找到一个数据集的真实概率分布
现在,并不知道这个分布P_{data}(x)的数学式子是什么样的,但是可以从这个分布中采样,当收集到一组高质量的图片作为数据集的时候就是从这个真实的分布中采样。其实也就是极大似然估计啊~
于是现在有了一笔从P_{data}(x)中采样的数据
然后,希望通过神经网络生成一个概率分布 Pdata(x; theta),theta就是参数,有可能是任何一种分布,使得这个概率分布和真实的概率分布Pdata(x)越接近越好,具体该怎么做呢?具体做法就是求概率分布 Pdata(x; theta)的极大似然估计。得到m个样本的可能性,把所有的可能性乘起来,就是总值L
(1)
L值越大,代表高质量图片的可能性越大。如何让l的值越大越好,就是要优化这个函数中的参数theta
(2)
这就是Generator中生成的概率分布中采样m个数据的似然估计,希望它能近似从Pdata(x)中采样数据的期望
(3)
为啥2,3式子相等!大数定律!根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。
(4)
化简后的式子是不是和式子(2)很相似,只不过多除了一个m,但由于m是一个常数,并不影响。
那为什要把式子(3)化成式子(4)呢,实际上化成式子(4)并不是最终目的。
把式子(4)减掉一个式子如下:
(5)
终于推出来了,解释清楚了,极大似然估计其实并不和KL散度完全相等,但是从KL散度的观点看极大似然估计确实可以获取到与真实概率分布一致的数据分布。