KL散度
KL 散度是根据两个概率分布的表达式来算它们的相似度的。
WGAN相对于原始GAN
1.判别器最后一层去掉sigmoid
2.生成器和判别器的loss不取log
3.每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c
4.不要用基于动量的优化算法(包括momentum和Adam),推荐RMSProp,SGD也行
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210315144824782.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Vlc3RjX2h1aHU=,size_16,color_FFFFFF,t_70#pic_center)
VAE
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210315150520413.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Vlc3RjX2h1aHU=,size_16,color_FFFFFF,t_70#pic_center)
![在这里插入图片描述](https://img-blog.csdnimg.cn/2021031515061558.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3Vlc3RjX2h1aHU=,size_16,color_FFFFFF,t_70#pic_center)
VAE的Encoder尽量向正态分布看齐。
对抗的原理在于:当Decoder训练不好,重构误差大,那么就降低噪声,使得拟合容易,当Decoder训练的好时,噪声增加,让重构误差增大,Decoder提升它的生成能力。