Dual GAN

最新推荐文章于 2024-06-16 11:42:32 发布

sinat_27240143

最新推荐文章于 2024-06-16 11:42:32 发布

阅读量8.9k

点赞数 9

分类专栏： GAN 文章标签：博客

本文链接：https://blog.csdn.net/sinat_27240143/article/details/78257103

版权

这篇博客介绍了Dual GAN的背景和思想，它旨在解决无配对图像转换问题，避免了需要大量带标签数据。文章通过与CycleGAN和DiscoGAN的对比，阐述了Dual GAN的独特之处，并详细探讨了Wasserstein GAN（WGAN）的理论基础，包括其解决原始GAN训练问题的策略。博主分享了WGAN的损失函数、网络结构和训练流程，指出在实践中采用WGAN-GP可能获得更好的效果。最后，展示了Dual GAN在多个实验中的出色表现。

摘要由CSDN通过智能技术生成

此篇博客仅为自己阅读Dual GAN的一些笔记。
原论文链接：https://arxiv.org/abs/1704.02510

在看Dual GAN 之前，听了学长学姐汇报了cycleGAN和discoGAN,感觉大体和DualGAN是相似的，于是我一直在思考这篇文章与另外两篇文章的区别，最终发现了这三篇文章虽然思想一致，但是由于提出的目的不同，在网络结构的设计上有了不同，整体来说Dual GAN 和cycleGAN还是比较相似的【1】。

为什么提出该论文？

现在的模型大部分都是需要成对的带标签的图像作为训练集，人为的做标记是很费事不科学的，并且还有时候我们很难找到一对一的图片，比如说照片及其对应的素描画（题外话：现在好像有不错的算法，生成一张图片对应的素描画，但要生成这样对应的训练集也是很麻烦就是了），我们往往是有一堆照片和一堆素描画，这篇论文想要做到的是，随机从两个数据集中各拿一张图片，可以将一张图片生成带有另一张图片风格的新图片。

文章的思想来源

这篇文章的灵感来源是Xia et al 提出的一篇做机器翻译的文章NIP Dual【2】。这篇文章的一个例子很好的解释了对偶的思想。首先假设我们有两个人A和B，A会英文不会法语，B会法语不会英文。A要和B进行交流，A写了一段话，通过翻译器GA翻译成法语，但A看不懂法语，只能将翻译的结果直接发给B;B收到这段话之后，用自己的理解整理了一下，通过翻译器GB翻译成英文直接发给A；A收到之后，要检查B是否真正理解自己说的话。如此往复几次，A和B都能确认对方理解了自己。在这个例子中，翻译器A和B分别是两个生成器，A和B分别担任了判别器的角色。

理论部分

接下来上原文中的图
这里写图片描述
再来看这个图是不是很好理解，好了，这里就不做重复解释了（其实是我懒- -）
NIP方法是依赖与训练来保证网络的正确性的，嗯，看到这里是不是感觉到不对劲了，对于语言，我们有很多对应的数据可以预训练，那对于图片呢，显然没有，原因见上，额，这下仿佛陷入了一个死循环了。别担心，除了NIP我们还有很多方法啊，比如说WGAN。

嗯，接下来让我们跳转到WGAN频道，本来想直接啃了这篇文章，发现太难了，网络结构和损失函数都参考WGAN，这让我怎么干啃T-T

WGAN

什么是WGAN？看了这篇文章，才算明白，为什么GAN提出了那么久没火起来，这两年突然间就火了呢，在这里我就姑且称它为GAN的再生之父吧。接下来的内容参考令人拍案叫绝的Wasserstein
GAN。请原谅一个数学不怎么好的人，一些数学证明这里就不复述了，需要的话请直接跳转原文，这里仅说明一些结论。
原始的GAN到底有什么问题呢？这时我们需要返回GAN的开山论文中《Generative Adversarial Nets》。
1、在《Generative Adversarial Nets》中，4.1中花了很大的篇幅在证明当判别器最优的时候，P_g=P_data是全局最优解。

这是文章该部分最终的出的结论。从这个式子我们可以得出什么结论呢？在最优判别器的条件下，原始GAN的生成器loss等价变换为最小化真实分布P_data与生成分布P_g之间的JS散度。我们越训练判别器，它就越接近最优，最小化生成器的loss也就会越近似于最小化P_r和P_g之间的JS散度。
这公式仿佛没什么问题，是的，问题不在公式上，在于一开始采用的度量方式就出错了。这说明了选择比努力更重要啊。。。。
为什么错呢？这里引进了一个概念，当P_r与P_g的支撑集是高维空间中的低维流形时，P_r与P_g重叠部分为0的概率为1。这个时候