GAN的Loss的比较研究(3)——Wasserstein Loss理解(1)

本文探讨了传统GAN训练的困难,如模式坍塌和不稳定性,并介绍了Martin Arjovsky在Wasserstein GAN中的创新。通过Wasserstein Distance作为衡量概率分布差异的指标,解决了支撑集不重叠的问题。文章详细阐述了Wasserstein Loss的定义和判别器在网络中的作用,以及如何通过限制神经网络参数确保K-Lipschitz条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前两篇文章讨论了传统GAN的Loss,该Loss有些不足的地方,导致了GAN的训练十分困难,表现为:1、模式坍塌,即生成样本的多样性不足;2、不稳定,收敛不了。Martin Arjovsky在《Towards principled methods for training generative adversarial networks》、《Wasserstein GAN》文章中,对传统Loss造成训练困难的原因进行了讨论:因为真实样本的概率分布 r P r 与生成器生成的样本概率分布 g P g 的支撑集不同,又由于两者的流型(Manifold)的维度皆小于样本空间的维度,因而两者的流型基本上是不可能完全对齐的,因而即便有少量相交的点,它们在两个概率流型上的测度为0,可忽略,因而可以将两个概率的流型看成是可分离的,因而若是一个最优的判别器去判断则一定可以百分百将这两个流型分开,即无论我们的生成器如何努力皆获得不了分类误差的信息,这便是GAN训练困难的重要原因,有一篇博文(《令人拍案叫绝的Wasserstein GAN》)对上述两篇文章做了深入浅出的解释,总结一下是:
用KL Divergence和JS Divergence作为两个概率的差异的衡量,最关键的问题是若两个概率的支撑集不重叠,就无法让那个参数化的、可移动的概率分布慢慢地移动过来,以拟合目标分布。
于是文章提出一种新的Loss定义,即Wasserstein Distance,它可以作为两个概率分布的距离衡量指标,其定义如下:

W(r,g)=infγΠ(r,g)E(x,y)γ[xy](1) W ( P r , P g ) = inf γ ∈ Π ( P r , P g ) E ( x , y ) ∼ γ [ ‖ x − y ‖ ] ( 1 )

W(r,g) W ( P r , P g ) 是概率分布 r,g P r , P g 的距离,它是两个在同一空间上(即维度相同)的随机变量x,y之差的范数均值的下确界。假设 r P r r P r 都是 d R d 上的概率分布,则两个空间相乘,构成 d×d R d × d 概率空间,在此空间中,找出所有在 d R d 边界分布为 r P r 和在另外一边 d R d 边界分布为 r P r 的所有分布,它们构成一个集合,即 Π(r,g) Π ( P r , P g ) 。在此集合中,我们任意抽取一个元素,即 γ γ ,它是一个在 d×d R d × d 上的分布,由它抽样出的样本,皆在 d×d R d × d 上,这些样本点分别投影在两个互补的
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值