前言
简单认识下GAN,GAN与最大似然的关系,几个基本概念的介绍
GAN
对抗网络
GAN的思想,一个判别模型D,一个生成模型G组成对抗网络。如何对抗呢? D的目的是尽量识别出G生成的样本, D(x) 表示样本被判断为真实数据的概率;G的目的是尽量让D无法识别自己生成的样本。
生成对抗网络的D之优化函数:
V(G,D)=Ex∼pdata[lnD(x)]+Ex∼pg[ln(1−D(x))]
这个优化函数是怎么来的呢? 本质是最大似然参数估计。
最大似然参数估计
先来回顾下最大似然估计问题,以二分类为例。
样本总是唯一地属于某个类1/0,假设正样本标记为1,负样本标记为0。
在一个样本在label已知时,则样本为类别y=label的概率为:
P(y|x;θ)=[P(y=1|x;θ)]T[y=1]∗[1−P(y=1|x;θ)]T[y=0]
其中 T[⋅] 表示判断是否为真,真则=1,假则=0。样本类别具有唯一性,故T[Y]也表示了随机变量 Y 发生的概率( Import),发生时概率为1,不发生时概率为0,这个特点将交叉熵和最大似然完美统一起来(对这里要解释地没用可以忽略)。
最大似然估计参数的思想是:选择某参数
maxθ{
P(Y|D;θ)}=maxθ{
∏imP(yi|xi;θ)}
==>等价于max{
Ln[L(D;θ)]}=max{
∑imlnP(yi|xi;θ)}
∝max{
1m∑imlnP(yi|xi;θ)}≈Ex∼p真实分布[lnP(yi|xi;θ)]
最后一步:对某随机变量而言,其总体期望可以用样本的均值估计。
V(G,D) 与ML 关系
对抗网络的样本来自真实数据 xi 和生成数据 G(zi) ,天然分裂为label=1(当 xi∈data 时)和label=0(当 xi∈G(zi) 时),判别器判别某样本类型y=label的概率函数可以表示为 P(y|x;(θd)) ,生成器的模型表示为 G(z) ,其中 z 为随机噪声。
其样本集判别为各自类别的总概率:
=∏imD(xi;θd)T[x