Dual GAN

此篇博客仅为自己阅读Dual GAN的一些笔记。
原论文链接:https://arxiv.org/abs/1704.02510

在看Dual GAN 之前,听了学长学姐汇报了cycleGAN和discoGAN,感觉大体和DualGAN是相似的,于是我一直在思考这篇文章与另外两篇文章的区别,最终发现了这三篇文章虽然思想一致,但是由于提出的目的不同,在网络结构的设计上有了不同,整体来说Dual GAN 和cycleGAN还是比较相似的【1】。

为什么提出该论文?

现在的模型大部分都是需要成对的带标签的图像作为训练集,人为的做标记是很费事不科学的,并且还有时候我们很难找到一对一的图片,比如说照片及其对应的素描画(题外话:现在好像有不错的算法,生成一张图片对应的素描画,但要生成这样对应的训练集也是很麻烦就是了),我们往往是有一堆照片和一堆素描画,这篇论文想要做到的是,随机从两个数据集中各拿一张图片,可以将一张图片生成带有另一张图片风格的新图片。

文章的思想来源

这篇文章的灵感来源是Xia et al 提出的一篇做机器翻译的文章NIP Dual【2】。这篇文章的一个例子很好的解释了对偶的思想。首先假设我们有两个人A和B,A会英文不会法语,B会法语不会英文。A要和B进行交流,A写了一段话,通过翻译器GA翻译成法语,但A看不懂法语,只能将翻译的结果直接发给B;B收到这段话之后,用自己的理解整理了一下,通过翻译器GB翻译成英文直接发给A;A收到之后,要检查B是否真正理解自己说的话。如此往复几次,A和B都能确认对方理解了自己。在这个例子中,翻译器A和B分别是两个生成器,A和B分别担任了判别器的角色。

理论部分

接下来上原文中的图
这里写图片描述
再来看这个图是不是很好理解,好了,这里就不做重复解释了(其实是我懒- -)
NIP方法是依赖与训练来保证网络的正确性的,嗯,看到这里是不是感觉到不对劲了,对于语言,我们有很多对应的数据可以预训练,那对于图片呢,显然没有,原因见上,额,这下仿佛陷入了一个死循环了。别担心,除了NIP我们还有很多方法啊,比如说WGAN。

嗯,接下来让我们跳转到WGAN频道,本来想直接啃了这篇文章,发现太难了,网络结构和损失函数都参考WGAN,这让我怎么干啃T-T

WGAN

什么是WGAN?看了这篇文章,才算明白,为什么GAN提出了那么久没火起来,这两年突然间就火了呢,在这里我就姑且称它为GAN的再生之父吧。接下来的内容参考令人拍案叫绝的Wasserstein
GAN
。请原谅一个数学不怎么好的人,一些数学证明这里就不复述了,需要的话请直接跳转原文,这里仅说明一些结论。
原始的GAN到底有什么问题呢?这时我们需要返回GAN的开山论文中《Generative Adversarial Nets》。
1、在《Generative Adversarial Nets》中,4.1中花了很大的篇幅在证明当判别器最优的时候,P_g=P_data是全局最优解。
这里写图片描述
这是文章该部分最终的出的结论。从这个式子我们可以得出什么结论呢?在最优判别器的条件下,原始GAN的生成器loss等价变换为最小化真实分布P_data与生成分布P_g之间的JS散度。我们越训练判别器,它就越接近最优,最小化生成器的loss也就会越近似于最小化P_r和P_g之间的JS散度。
这公式仿佛没什么问题,是的,问题不在公式上,在于一开始采用的度量方式就出错了。这说明了选择比努力更重要啊。。。。
为什么错呢?这里引进了一个概念,当P_r与P_g的支撑集是高维空间中的低维流形时,P_r与P_g重叠部分为0的概率为1。这个时候

  • 9
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值