WGAN-div:默默无闻的WGAN填坑者 | 附开源代码

640


作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm


今天我们来谈一下 Wasserstein 散度,简称“W 散度”。注意,这跟 Wasserstein 距离(Wasserstein distance,简称“W 距离”,又叫 Wasserstein 度量、Wasserstein metric)是不同的两个东西。 


本文源于论文 Wasserstein Divergence for GANs,论文中提出了称为 WGAN-div 的 GAN 训练方案。


640


640


这是一篇我很是欣赏却默默无闻的 paper,我只是找文献时偶然碰到了它。不管英文还是中文界,它似乎都没有流行起来,但是我感觉它是一个相当漂亮的结果。


640

 WGAN-div的部分样本(2w iter)


如果读者需要入门一下 WGAN 的相关知识,不妨请阅读拙作互怼的艺术:从零直达 WGAN-GP


WGAN


我们知道原始的 GAN(SGAN)会有可能存在梯度消失的问题,因此 WGAN 横空出世了。


W距离


WGAN 引入了最优传输里边的 W 距离来度量两个分布的距离: 


640


这里的 p̃(x) 是真实样本的分布,q(x) 是伪造分布,c(x,y) 是传输成本,论文中用的是 c(x,y)=‖x−y‖;而 γ∈Π(p̃(x),q(x)) 的意思是说:γ 是任意关于 x,y 的二元分布,其边缘分布则为 p̃(x) 和 q(y)。


直观来看,γ 描述了一个运输方案,而 c(x,y) 则是运输成本,Wc(p̃(x),q(x)) 就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。


对偶问题


W 距离确实是一个很好的度量,但显然不好算。当 c(x,y)=‖x−y‖ 时,我们可以将其转化为对偶问题:


640


其中 T(x) 是一个标量函数,‖T‖L 则是 Lipschitz 范数:

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值