谱归一化（Spectral Normalization）的理解

最新推荐文章于 2024-09-20 21:48:23 发布

田神

最新推荐文章于 2024-09-20 21:48:23 发布

阅读量4w

点赞数 57

分类专栏：机器学习与神经网络文章标签： Gan Lipschitz 谱范数

本文链接：https://blog.csdn.net/StreamRock/article/details/83590347

版权

《Spectral Normalization for Generative Adversarial Networks》【1】是Takeru Miyato在2018年2月发表的一篇将谱理论应用于Gan上的文章，在2017年，本文的第3作者Yuichi Yoshida就发表了一篇著名的谱范数正则（Spectral Norm Regularization）的文章【2】，如有兴趣也可参看我的上一篇Blog：https://blog.csdn.net/StreamRock/article/details/83539937
【1】、【2】两篇文章从不同的角度讨论了：参数矩阵的谱范数对多层神经网络的泛化的影响，并分别给出了两个不同的应对方法：前者对Discriminator矩阵参数进行归一化处理，后者可以加入任意多层网络（在更新梯度时加入了谱范数正则项）。本文将在【1】的阅读理解基础上，探讨其实现的方法。

一、Gan的Lipschitz稳定性约束

Gan好是好，但训练难，主要体现在：1）模式坍塌，即最后生成的对象就只有少数几个模式；2）不收敛，在训练过程中，Discriminator很早就进入了理想状态，总能perfectly分辨出真假，因此无法给Generator提供梯度信息，而导致训练无法进行下去。Martin Arjovsky在《Towards principled methods for training generative adversarial networks》【4】、《Wasserstein GAN》【5】文章中，对Gan难训练的原因做了详细的讨论，并给出一种新的Loss定义，即Wasserstein Distance：
$W(P_r,P_g)=\inf_{\gamma\in\prod(P_r,P_g)}E_{(x,y)\sim \gamma}[\Vert x-y\Vert]\qquad(1)$
实际Wasserstein Distance的计算是通过它的变形来完成的：
$W(P_r,P_g)=\sup_{\Vert f \Vert_{Lip}}E_{x∼P_r}[f(x)]−E_{x∼P_g}[f(x)]\qquad(2)$
(2)式只要求 $f(\cdot)$ 满足Lipschitz约束即可，在Gan中，判别器的映射函数可充当(2)式中的 $f(\cdot)$ ，于是加入此一约束的Gan网络有了一个新的名称：WGan。
引入Wasserstein Distance，将传统Gan转变为WGan是有许多好处的，因为Wasserstein Distance具有如下优点：
1、 $W(P_r,P_g)\ge0$ ，等号在 $P_r,P_g$ 分布完全重合时成立；
2、 $W(P_r,P_g)$ 是对称的，较常用的 KL Divergence 的不对称，有优势；
3、即使两个分布 $P_r,P_g$ 的支撑不相交，亦可以作为衡量差异的距离，并在满足一定条件下可微，具备了后向传输的能力。
当 WGan 的 Discriminator 采用了这种距离来训练后，可以消除传统Gan训练时出现的收敛问题，使训练过程变得稳定。另外，要实施此策略也很简单，只需在传统Gan的Discriminator的参数矩阵上加上Lipschitz约束即可，其它的几乎不用改。