GAN 原理

最新推荐文章于 2024-04-17 21:33:10 发布

tsstaitixu

最新推荐文章于 2024-04-17 21:33:10 发布

阅读量331

点赞数

分类专栏： GAN 深度学习

本文链接：https://blog.csdn.net/qq_30776035/article/details/104694112

版权

深度学习同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

GAN

4 篇文章 0 订阅

订阅专栏

文章目录

各种散度

熵

$\sum \limits_i p(x_i)log_bp(x_i)$
在P分布携带的信息量
/
对P分布的样本使用基于P的编码所需的最小字节数

交叉熵

在这里插入图片描述
$\sum \limits_i p(x_i)log_bq(x_i)$
从Q分布的角度来看P分布的信息量
/
对P分布的样本使用基于Q的编码所需的所需要的“平均的编码长度”
为何交叉熵可以用来衡量损失？参考
训练样本P分布的熵是恒定的，最小化交叉熵等于最小化KL散度，即用当前分布来拟合训练数据分布的信息量损失。

KL散度

在这里插入图片描述

$KL(p||q)=-(\sum \limits_i p(x_i)log_bq(x_i))+\sum \limits_i p(x_i)log_bp(x_i)$
$= H (p, q) - H (p)$
不对称性非负性

使用Q分布来近似P分布时信息的损失量
/
对P分布的样本使用基于Q的编码“额外所需的编码长度”。

JS 散度

在这里插入图片描述
对称性 0-1之间越小越相似

GAN 原理

根据原始GAN定义的判别器loss，我们可以得到最优判别器的形式；而在最优判别器下,可以把原始GAN定义的生成器loss等价变换为最小化真实分布 $P_r$ 与生成分布 $P_g$ 之间的JS散度。
在这里插入图片描述

固定G，求出最优的D，然后代入max DV（G，D）,得到的是JS散度，最小为-2log2
最小化上式，即最优化JS散度，那么必然

训练产生问题

原始GAN 问题：
生成器梯度消失严重

JS 散度衡量不了不重叠分布距离
图片是由低维的vector到高维生成的，由于 $P_r$ 与 $P_g$ 几乎不可能有不可忽略的重叠，所以无论它们相距多远JS散度都是常数 $\log 2$ ，最终导致生成器的梯度（近似）为0，梯度消失。
判别器太好
G、D训练互相影响
更新G之后，确实对应的JS散度变小了，但是同时影响了V（G,D）曲线，那下次的maxV(G,D)可能变大了，就是说D拟合两者分布的能力变差了
解决方式更新多次D，更新一次G

改进的生成器loss（因为刚开始训GAN的时候判别器对生成图片的输出较小，原损失函数的梯度小，训练慢）
导致不稳定&collapse mode 多样性不足

等于最小化
又要最小化KL,又要最大化JS 梯度不稳定

前面KL的毛病：不对称
在这里插入图片描述
第一项是没有生成真实数据集里存在的样本，第二项是错误生成了真实数据里没有的样本，那我宁愿不去生成多样性的样本，不试错。

WGAN

Earth-Mover（EM）距离

而W(P_r, P_g)就是“最优路径规划”下的“最小消耗”
在所有可能的联合分布下，求真实样本和生成样本距离的期望，取这个期望的下界。
也就是在最优的联合分布下，将Pr挪到Pg的最小消耗。
Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近。

WGAN

在这里插入图片描述
对真实样本来说取f(x)，对生成样本来说取-f(x)的上界，对参数w梯度有限制。

1-拉普拉斯连续 :限制输出变化量<输入变化量，即要求函数平滑，防止训练趋向于将两类距离越拉越大不收敛。

与原始GAN 区别：
1.损失函数
在这里插入图片描述

参数截断以满足拉普拉斯条件
去掉判别器中的sigmoid
因为原始D(x)拟合的是0、1值，而在这里判别器拟合的是Wassertain 距离。

WGAN-GP

使用梯度惩罚加惩罚项
在这里插入图片描述

Relativistic GANs

传统的 GAN 会度量生成数据是真实数据的概率。相对 GAN（Relativistic GAN）则会去度量生成数据比真实数据「更加真实」的概率
在这里插入图片描述

参考：WGAN

tsstaitixu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GAN 原理

各种散度交叉熵KL散度不对称性非负性JS 散度对称性 0-1之间越小越相似GAN 原理根据原始GAN定义的判别器loss，我们可以得到最优判别器的形式；而在最优判别器下,可以把原始GAN定义的生成器loss等价变换为最小化真实分布PrP_rPr与生成分布PgP_gPg之间的JS散度。固定G，求出最优的D，然后代入max DV（G，D）,得到的是JS散度，最小为...
复制链接

扫一扫

专栏目录