作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
不知道从什么时候开始,我发现我也掉到了 GAN 的大坑里边了,唉,争取早日能跳出来。
本文介绍的是我最近提交到 arXiv 的一个关于 GAN 的新框架,里边主要介绍了一种对概率散度的新理解,并且基于这种理解推导出了一个新的 GAN。整篇文章比较偏理论,对这个 GAN 的相关性质都做了完整的论证,自认为是一个理论完备的结果。
先摆结论:
1. 论文提供了一种分析和构造概率散度的直接思路,从而简化了构建新 GAN 框架的过程;
2. 推导出了一个称为 GAN-QP 的 GAN 框架,这个 GAN 不需要像 WGAN 那样的 L 约束,又不会有 SGAN 的梯度消失问题,实验表明它至少有不逊色于、甚至优于 WGAN 的表现。
▲ GAN-QP效果图
论文的实验最大做到了 512 x 512 的人脸生成(CelebA HQ),充分表明了模型的有效性(效果不算完美,但是模型特别简单)。有兴趣的朋友,欢迎继续阅读下去。
直面对偶空间
我们现在要构建一个 GAN 框架,一般包含三个步骤:
寻求一种良好的概率散度;
找出它的对偶形式;
转化为极小-极大游戏(min-max game)。
问题是:真正对训练过程有用的是第二、第三步,第一步并不是那么必要。
事实上,从原空间要定义一个新的散度很难,定义了之后也不一定容易转化为对偶形式。然而,我们可以直接在对偶空间分析,由此可以发现一批新的、形态良好的散度。换言之,我们其实可以直接在对偶空间中论述一个式子是否满足散度的定义,从而直接给出可优化的目标,而不需要关心它具体是 JS 散度还是 W 距离了。
下面我们来举例说明这个思路。
散度
首先我们来给出散度的定义:
如果 D[p,q] 是关于 p,q 的标量函数,并且满足:
D[p,q]≥0 恒成立;
D[p,q]=0⇔p=q。
那么称 D[p,q] 为 p,q 的一个散度,散度与“距离”的主要差别是散度不用满足三角不等式,也不用满足对称性。但是散度已经保留了度量差距的最基本的性质,所以我们可以用它来度量 p,q 之间的差异程度。
SGAN
基本定义