f-GAN简介:GAN模型的生产车间

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

今天介绍一篇比较经典的工作,作者命名为 f-GAN,他在文章中给出了通过一般的 f 散度来构造一般的 GAN 的方案。可以毫不夸张地说,这论文就是一个 GAN 模型的“生产车间”,它一般化的囊括了很多 GAN 变种,并且可以启发我们快速地构建新的 GAN 变种(当然有没有价值是另一回事,但理论上是这样)。

论文链接:https://arxiv.org/abs/1606.00709

局部变分

整篇文章对 f 散度的处理事实上在机器学习中被称为“局部变分方法”,它是一种非常经典且有用的估算技巧。事实上本文将会花大部分篇幅介绍这种估算技巧在 f 散度中的应用结果。至于 GAN,只不过是这个结果的基本应用而已。

f散度

首先我们还是对 f 散度进行基本的介绍。所谓 f 散度,是 KL 散度的一般化:

注意,按照通用的约定写法,括号内是 p/q 而不是 q/p,大家不要自然而言地根据 KL 散度的形式以为是 q/p。

可以发现,这种形式能覆盖我们见过的很多概率分布之间的度量了,这里直接把论文中的表格搬进来(部分)。

凸函数

上面列举了一堆的分布度量以及对应的 f ,那么一个很自然的问题是这些 f 的共同特点是什么呢? 

答案是: 

1. 它们都是非负实数到实数的映射(); 

2. f(1)=0; 

3. 它们都是凸函数。 

第一点是常规的,第二点  f(1)=0 保证了 ,那第三点凸函数是怎么理解呢?其实它是凸函数性质的一个最基本的应用,因为凸函数有一个非常重要的性质(詹森不等式):

也就是“函数的平均大于平均的函数”,有些教程会直接将这个性质作为凸函数的定义。而如果 f(u) 是光滑的函数,我们一般会通过二阶导数 f′′(u) 是否恒大于等于 0 来判断是否凸函数。

利用 (2),我们有:

也就是说,这三个条件保证了 f 散度是非负,而且当两个分布一模一样时 f 散度就为 0,这使得  可以用来简单地度量分布之间的差异性。当然,f 散度原则上并没有保证

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值