普通GAN简介:
总之, 对于 GAN 的学习过程, 我们需要训练模型 D 来最大化判别数据来源于真实数据或者伪数据分布 G(z) 的准确率, 同时, 我们需要训练模型 G来最小化 log(1 − D(G(z))). 这里可以采用交替优化的方法: 先固定生成器 G, 优化判别器 D, 使得D 的判别准确率最大化; 然后固定判别器 D, 优化生成器 G, 使得 D 的判别准确率最小化. 当且仅当p(data)= p(g)时达到全局最优解. 训练 GAN 时, 同一轮参数更新中, 一般对 D 的参数更新 k 次再对 G的参数更新 1 次.
目标函数如下:
WGAN:
GAN 在基于梯度下降训练时存在梯度消失的问题, 因为当真实样本和生成样本之间具有极小重叠甚至没有重叠时, 其目标函数的 Jensen-Shannon散度是一个常数, 导致优化目标不连续. 为了解决训练梯度消失问题, Arjovsky 等[29]提出了 Wasser-stein GAN (W-GAN). W-GAN 用 Earth-Mover 代替 Jensen-Shannon 散度来度量真实样本和生成样本分布之间的距离, 用一个批评函数 f 来对应 GAN的判别器, 而且批评函数 f 需要建立在 Lipschitz 连续性假设上. 另外, GAN 的判别器 D 具有无限的建模能力, 无论真实样本和生成的样本有多复杂, 判别器 D 都能把它们区分开, 这容易导致过拟合问题. 为了限制模型的建模能力, Qi[30]提出