作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
今天我们来谈一下 Wasserstein 散度,简称“W 散度”。注意,这跟 Wasserstein 距离(Wasserstein distance,简称“W 距离”,又叫 Wasserstein 度量、Wasserstein metric)是不同的两个东西。
本文源于论文 Wasserstein Divergence for GANs,论文中提出了称为 WGAN-div 的 GAN 训练方案。
这是一篇我很是欣赏却默默无闻的 paper,我只是找文献时偶然碰到了它。不管英文还是中文界,它似乎都没有流行起来,但是我感觉它是一个相当漂亮的结果。
▲ WGAN-div的部分样本(2w iter)
如果读者需要入门一下 WGAN 的相关知识,不妨请阅读拙作互怼的艺术:从零直达 WGAN-GP。
WGAN
我们知道原始的 GAN(SGAN)会有可能存在梯度消失的问题,因此 WGAN 横空出世了。
W距离
WGAN 引入了最优传输里边的 W 距离来度量两个分布的距离:
这里的 p̃(x) 是真实样本的分布,q(x) 是伪造分布,c(x,y) 是传输成本,论文中用的是 c(x,y)=‖x−y‖;而 γ∈Π(p̃(x),q(x)) 的意思是说:γ 是任意关于 x,y 的二元分布,其边缘分布则为 p̃(x) 和 q(y)。
直观来看,γ 描述了一个运输方案,而 c(x,y) 则是运输成本,Wc(p̃(x),q(x)) 就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。
对偶问题
W 距离确实是一个很好的度量,但显然不好算。当 c(x,y)=‖x−y‖ 时,我们可以将其转化为对偶问题:
其中 T(x) 是一个标量函数,‖T‖L 则是 Lipschitz 范数: