DeLiGAN: 对于多样性和有限数据的GAN
前言
技术人还是要写技术文啊,写什么情感大戏啊。
开始遨游CVPR2017,主要是为了学习更多的深度学习网络架构
讲道理计算机视觉的深度学习架构是深度学习各领域比较先进的,比如CNN,自编码器,GAN,注意力机制都是出于CV然后应用于其他领域的。所以即使我不学CV了还是要看CVPR的论文
论文本身
讨论一下GAN的缺点:
- Mode Collapse:当GAN无法达到识别网络D每趟的运行次数大于生成网络G的时候,生成网络生成的所有内容都将归于同样的对象,比如训练GAN for MNIST最后所有的生成内容都为1
训练速度慢,训练吃数据:原始GAN的生成网络与识别网络都是MLP(不是很懂为什么)。较CNN来说,MLP更吃数据而且运行速度更慢
GAN生成数据的多样性来自于GAN的生成者输入的噪音N。原始GAN的噪音是高斯噪音。而这篇文章主要的重点,笔者认为在于尝试去用一个有点想Batch Normalization的方式去学习噪声输入
图右就是DeLiGAN的结构。可以看到,DeLiGAN在输入的时候进行了变化。
2.DeLiGAN
DeLiGAN使输入噪音通过一个高斯混合模型(Mixture-of-Gaussian model)
pz(z)=∑Ni=1ϕig(z|μi,Σ) p z ( z ) = ∑ i = 1 N ϕ i g ( z | μ i , Σ )
其中 ϕi ϕ i 是权值,也是采用重参数单元(我使用的是指的是 g(z|μi,Σ) g ( z | μ i , Σ ) )的概率。在文章中 ϕ