数学角度的GAN的改进方法

最新推荐文章于 2023-05-20 06:12:10 发布

abril4416

最新推荐文章于 2023-05-20 06:12:10 发布

阅读量419

点赞数

分类专栏： GAN（生成对抗网络）文章标签：深度学习 python 神经网络

本文链接：https://blog.csdn.net/abril4416/article/details/104876269

版权

从数学角度看为什么要改进GAN

GAN的discriminator评估的方式其实是计算 $P_G$ 和 $P_{data}$ 的JS散度。但是JS 散度面对一个问题：当两个分布没有重合，得到的JS散度就是 $l o g 2$ （同时之前从散度角度理解GAN，使用JS散度还面临mode collapse和mode dropping的问题）。但是很大概率不重合：

data本身的问题：数据是高维空间的低维流线分布
采样的问题：就算两个分布有重合部分，但是通过采样，可能重合部分会很少
这样使用JS的缺点，直观来讲就是类似，分类问题，只要分类错误loss都是相同的，不论分类结果与正确结果的差异性。
discriminator的第二个问题是，它是一个二分类问题，使用sigmoid函数：
可以看到，假的点位于左边，其函数微分都是零（尽管不是很fake的情况，由于sigmoid很快饱和），梯度回传，将会造成生成样本点基本不会移动（因为generator更新需要用到discriminator的梯度）。改进的方法是不要将discriminator训练的太好——生成的样本点在discriminator的得分不要全部零。针对这个点，Least Square GAN 解决方法是将log损失改为L2 loss：LSGAN作者博客。L2 loss只有在生成的数据和实际数据完全重合，梯度才会为零。具体代码实现loss：

D_loss = 0.5 * (torch.mean((D_real - 1)**2) + torch.mean(D_fake**2))
G_loss = 0.5 * torch.mean((D_fake - 1)**2)

这里看到discriminator的损失函数和log的时候不一样，但是目标一致，最小化loss。

Wasserstein GAN

之前是JS散度评估两个分布之间的差异性，WGAN提出了另外一种评估的方式：earth mover’s distance，也是衡量两个分布之间差异性的方法：earth mover’s distance是什么以及解法
假设两个分布P，Q，其中 $x_p$ 和 $x_q$ 分别是两分布中采样的点，用 $r(x_p,x_q)$ 表示两点要移动的量，那么定义earth mover’s distance为： $\sum\limits_{x_p,x_q} r(x_p,x_q)||x_p,x_q||$