BAAI 2020 北京智源大会 | 孙若愚 | Towards Better Global Landscape of GAN

回放地址

2020北京智源大会 数理基础论坛

报告内容

概述

本次Talk是BAAI 2020 北京智源大会 人工智能的数理基础论坛的一场报告,sun在本次报告中介绍了自己最近的工作,可以总结为
1,在function space和parameter space从理论角度分析了GAN的经验版本(empirical version);
2,指出JS-GAN有bad basin,而RS-GAN没有bad basin;
3,进行了simulation,得出RS-GAN在某些方面比JS-GAN性能上要更好一些;

Introduction

sun首先介绍了研究的动机,有两点。
1,Hard to tune ; 即不容易调试,传统的GAN可能需要花费很长的时间进行调试才能达到满意的效果;
2,Huge:BigGAN requires 8 V100,15 days; 即计算资源,资金和时间上的开销巨大;
引用sun的话,GAN training is extremly hard.
本次talk中有什么?

  • 对于GAN的研究者:
    • 对GAN的全球动态更加了解
    • 提倡R-GAN
  • 对于一般的听众
    • 了解GAN是怎么工作的
  • 对于数学专业的
    • 了解平衡分析(equilibrium analysis)的强大

工作的Contributions
分析了empirical loss of GANs(with neural-nets)的global landscape

  • Theory - 理论上

    • JS-GAN有指数个bad basin,每一个都是mode-collapse的
    • Relativistic GANs(R-GAN) 没有bad-basin
  • Experiments - 实验上

    • R-GAN已经被在实践中使用了:仅需要修改两行代码
    • 确认有"better landscape" : narrower nets ; more robust to initial point;

Part Ⅰ Review of GAN and Literature

GAN的目标就是生成data,GAN试图找到和true distribution相近的data分布。比如当你想临摹一副梵高的画像时,你怎么才能判断你画的像不像呢?此时,你需要一个裁判(critic)来告诉你你的临摹和原作的差距(gap)是多大。在这里插入图片描述
所以目标函数(object function) 是生成的分布 p g p_{g} pg和真正的分布 p d a t a p_{data} pdata之间的一个函数, min ⁡ p g Φ ( p g , p g ) \min \limits_{p_g} \Phi\left(p_g,p_g\right) pgminΦ(pgpg)其中Φ的定义如下 Φ ( p g , p g ) = max ⁡ D E x ∼ p d a t a y ∼ p g log ⁡ ( D ( x ) ) + log ⁡ ( 1 − D ( y ) ) \Phi\left(p_g,p_g\right)=\max\limits_{D}E_{x\sim{p_{data}}y\sim{p_g}}\log\left(D(x)\right) +\log(1-D(y)) Φ(pgpg)=DmaxExpdataypglog(D(x))+log(1D(y))

D可以被看做是critic,这就是min-max optimization。这里有一个sanity check,当我们生成的分布和真实的分布一样时, Φ ( p g , p g ) \Phi\left(p_g,p_g\right) Φ(pgpg)的Loss将会是最小的,这里面涉及到一系列的数学主题,有min-max optimization , game theory(博弈论),probability(概率轮)。本次talk会从min-max optimization这个角度来看。
在这里插入图片描述
然后我们来看一下相关的理论研究,可以分为两个部分,分别是Statistical analysis(统计分析)和Optimization analysis(优化分析)。在这里插入图片描述
Now to explain the Gap in the existing Theory ,GAN theory is complicated in the sense that you have to do it in the multi steps,你必须从pdf space 到generator function space ,and then go to parameter space ,人们在实践中用的是parameter space optimization,但是原始的good fellow paper是在pdf space进行的理论分析。
在这里插入图片描述
从优化理论的角度看来有很多问题,…,要想在一篇paper中回答所有的问题含有难度,在这个talk中我们将把注意力集中到第一个问题和第二个问题,尤其是第二个问题。
在这里插入图片描述
本次talk我们将突出讲在G function space analysis和 Local-min analysis ,但是理解了它以后,你可以很容易使用neural network来理解parameter space中的问题。
在这里插入图片描述
在Goodfellow的paper中, Φ J S ( P g , P d a t a ) \Phi_{JS}(P_{g},P_{data}) ΦJS(Pg,Pdata) p g p_g pg中是凸的。Goodfellow证明的本质是

any linear functional of the probability density is convex
译:概率密度的任何线性函数都是凸的

即,对于任意的函数f, E y ∼ p g f ( y ) E_{y\sim{p_g}}f(y) Eypgf(y) p g p_{g} pg中是凸的。不论f是怎样奇怪的形式,它在 p g p_g pg中总是凸的。从一个角度来看,这样意味着optimization也会变得很简单。但是从另一个角度来看,pdf space并没有利用GANs的结构,因为任何形式的函数都是凸的,所以这看起来缺少了一些东西。
在这里插入图片描述
在这里插入图片描述

Part Ⅱ Analysis of JS-GAN and RS-GAN

Mode Collapse:考虑生成两个点 Y = { y 1 , y 2 } Y=\left\{y_1,y_2\right\} Y={y1,y2},红色的线D是identifier或是critic,刚开始时D能够成功的划分Y和X,后来随着你的技术越来越精湛,生成的点与X越来越接近,越过了D;随后D向右移动,再次成功的对Y和X进行了分类;再之后Y继续向右移动,跨过了D。这样重复了多次后,生成的点会持续落在同一个地方,因为critic不能再提供更多的反馈。
但是之前的工作来看这个现象还没有一个严谨的数学定理。
在这里插入图片描述
在这里插入图片描述
解决这个问题的办法是使用个性化标准(personalized criteria)。类比到学校中是给排名不同的学生规定不同的毕业标准,来最大化他们的潜力。
在这里插入图片描述
下面来定义h-GAN和R-h-GAN 。
h-GAN是一个非正式的名字,它的意思是它有一个确定的h函数,并且Loss函数是True Data和False Data的可分离的组合。
在R-GAN中,我们需要一对 x i x_i xi y i y_i yi,我们把 x i x_i xi y i y_i yi放到同一个h函数中。
在这里我们可以使用和JS-GAN同一个h函数,这叫做RS-GAN(Relativistic Stanard GAN),当然你还可以使用其它的h函数,比如hinge loss或者least-square loss,不过在这里我们会拿RS-GAN举例,它很容易解释。
在这里插入图片描述
我们在W-GAN中得到了一些启发。W-GAN和JS-GAN在两方面不同:

  1. 将logistic regression loss变成linear
  2. 将X和Y看成一对来考虑(Couple X and Y)。是R-h-GAN的一种特殊情况。

我们假设是coupling提升了landscapes,并且是至关重要的。
而第一个不同并没有起到太大的作用。
我们将W-GAN从linear恢复成logistic regression loss,并保持coupled,它比原来的W-GAN工作的要更好一些。
这就是RS-GAN
在这里插入图片描述

Part Ⅲ Landscape Analysis:Formal Results

我们经过实验经过计算得出结论:

The mode collapse is a strict local-min for JS-GAN;but RS-GAN has no strict local-min;

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
Non-basin V.S. basin
Non-basin可以类比成一条河流,沿着这条河流你可以顺流而下。
basin 可以比作是天池,四面环山,你很有可能会被困在里面。
在这里插入图片描述
接着证明了h-GAN(比如JS-GAN)有bad-basin,R-GAN没有basin。
在这里插入图片描述

在这里插入图片描述
我们可以把这一结果推广到Parameter Space
在这里插入图片描述
在这里插入图片描述
我不想讲太多的数学证明细节,意识到这一点可能比证明更重要。

Part Ⅳ Explaining Two-Cluster(聚类) Experiments

RS-GAN训练的更快
在这里插入图片描述
D Loss 很难理解,它有很多patterns,但是至少在下面这种情况下(图a),我们能解释这种现象为什么发生,图a中的y=0.48处是因为陷入到basin中了,而在RS-GAN中没有这种现象。
在这里插入图片描述
数学本质,Non-linear dynamics is very complicated ε=( o`ω′)ノ,so this work:Let’s identify equilibirum points ,ignore details of dynamics for now.[sun的原话:if you really want to use dynamics analyse ,you’ll take 5 years to write a paper(○´・д・)ノ]

Part Ⅴ Real Experiment Example

在pytorch只需要改变两行代码。
在这里插入图片描述
我们做了三个predictions。(P0中有个typo)
在这里插入图片描述
以及实验的结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Part Ⅵ Summary

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值