【GANs】Wasserstein GAN
4 W-GAN
在生成对抗网络中, J S JS JS散度不适合衡量生成数据分布和真实数据分布的距离。由于通过优化交叉熵( J S JS JS散度)训练生成对抗网络会导致训练稳定性和模型坍塌问题,因此改进GAN,就需要改变其损失函数。
4.1 W-GAN简介
W-GAN通过使用 W a s s e r s t e i n Wasserstein Wasserstein距离代替优化 J S JS JS散度来优化训练的生成对抗网络。
对于真实分布 p r p_r pr和模型分布 p θ p_{\theta} pθ,他们的 1 s t − W a s s e r s t e i n 1st-Wasserstein 1st−Wasserstein距离为:
W 1 ( p r , p θ ) = inf γ ∼ Γ ( p r , p θ ) E ( x , y ) ∼ γ [ ∥ x − y ∥ ] \begin{align} {
{\bf{W}}^1}({p_r},{p_\theta }) = \mathop {\inf }\limits_{\gamma \sim \Gamma ({p_r},{p_\theta })} {
{\rm E}_{(x,y)\sim \gamma }}\left[ {\left\| {x - y} \right\|} \right] \end{align} W1(pr,pθ)=γ∼Γ(pr,pθ)infE(x,y)∼γ[∥x−y∥]
其中 Γ ( p r , p θ ) {\Gamma ({p_r},{p_\theta }}) Γ(pr,pθ)是边界分布为 p r p_r pr和 p θ p_{\theta} pθ的所有可能的联合分布集合。
当两个分布没有重叠或者重叠非常少时,他们之间的 K L KL KL散度为 + ∞ + \infty +∞, J S JS JS散度为 l o g 2 log2 log2,并不随着两个分布之间的距离而变化。而 1 s t − W a s s e r s t e i n 1st-Wasserstein 1st−Wasserstein距离依然可以衡量两个没有重叠分布之间的距离。
两个分布 p r p_r pr和 p θ p_{\theta} pθ的 1 s t − W a s s e r s t e i n 1st-Wasserstein 1st−Wasserstein距离通常难以直接计算,但是两个分布的 1 s t − W a s s e r s t e i n 1st-Wasserstein 1st−Wasserstein距离有一个对偶形式:
W 1 ( p r , p θ ) = sup ∥ f ∥ L ≤ 1 ( E x ∼ p r [ f ( x ) ] − E x ∼ p θ [ f ( x ) ] ) \begin{align} {
{\bf{W}}^1}({p_r},{p_\theta }) = \mathop {\sup }\limits_{
{
{\left\| f \right\|}_L} \le 1} \left( {
{
{\rm E}_{x\sim{p_r}}}\left[ {f(x)} \right] - {
{\rm E}_{x\sim{p_\theta }}}\left[ {f(x)} \right]} \right) \end{align} W1(pr,pθ)=∥f∥L≤1sup(Ex∼pr[f(x)]−Ex∼pθ[f(x)])
其中 f : R d → R f:{\mathbb{R}^d} \to \mathbb{R} f:Rd→R为 1 − L i p s c h i t z 1-Lipschitz 1−Lipschitz函数,满足:
∥ f ∥ L ≤ 1 ≜ sup x ≠ y ∣ f ( x ) − f ( y ) ∣ ∣ x − y ∣ ⩽ 1