DL中常用的三种K-Lipschitz技术

最新推荐文章于 2024-07-01 19:44:11 发布

chenhch8

最新推荐文章于 2024-07-01 19:44:11 发布

阅读量6.3k

点赞数 14

本文链接：https://blog.csdn.net/deepinC/article/details/89314424

版权

本文介绍了深度学习中确保模型平滑性的K-Lipschitz约束技术，包括权重裁剪、梯度惩罚和谱归一化。其中，谱归一化通过调整网络层权重以保持1-Lipschitz特性，效果最佳。理论推导和Tensorflow实现也被详细讨论。

摘要由CSDN通过智能技术生成

文章目录

Lipschitz continuity
Weight clipping
Gradient penalty
Spectral Normalization

在进入到正题前，首先来了解下什么是 K-Lipschitz 以及它在 DL 中能起到什么作用

Lipschitz continuity

利普希茨连续。满足如下性质的任意连续函数 $f$ 称为 K-Lipschitz：
$\| f(x_1) - f(x_2) \| \leq K \| x_1 - x_2 \|,\ \forall x_1,x_2 \in \text{dom}f$
这里的 $\|\cdot\|$ 常用2-范。直观上看，Lipschitz 条件限制了函数变化的剧烈程度。在DL中，由于 Lipschitz continous 的函数的梯度上界被限制，因此函数会更平滑。因此利用梯度下降进行参数更新时，参数的变化不会太大/剧烈从而降低梯度爆炸的发生概率，使模型的更新更稳定。 $K$ 称为 Lipschitz constant。

那么在 DL 中，有哪些方法可用于将 $f$ 限制在 K-Lipschitz 空间中？这里介绍三种：weight clipping、gradient penality、spectral normalization，一般而言，第三种的效果最佳

Weight clipping

由 Wasserstein GAN 提出。
在利用 gradient descent 进行参数更新后，在对所有参数进行如下操作：
$w=\begin{cases} c, & \text{if } w > c \\ -c, & \text{if } w < -c \\ w, & \text{otherwise} \end{cases}$
其中 $c$ 是人为设定的阈值。注意，Weight cplipping 并无法保证 $f$ 位于 1-Lipschitz，而只能保证其是 K-Lipschitz的（K具体无法确定）

Gradient penalty

由 Improved Training of Wasserstein GANs 提出。
理论支持：一个可微函数 $f$ 是 1-Lipschitz 当且仅当它对所有的输入 $x$ 均满足 $\| \nabla_x f(x) \| \leq 1$ ，即，
$\in \text{1-Lipschitz} \iff \| \nabla_x f(x) \| \leq 1, \forall x \in \text{dom}f$
在具体实现时，即在 Objective function 中添加如下正则项：
$\min_{\theta} \{ \mathcal{L}(x, \theta) + \lambda \color{#F00}{\max(0, \| \nabla_x f(x) - 1) \| } \}$
公式中的 $\mathcal L$ 即为 Loss/Objective function，而 $f$ 为 Score function。注意，优化该目标函数后，所解出的 $f$ 并无法保证一定满足 $\| \nabla_x f(x) \| \leq 1$ ，但 $f$ 会偏向具有该属性

Spectral Normalization

谱归一化，由SN-GAN提出，是目前三种方法中效果最优的方法。

下面简要介绍其非严格的理论推导，主要来自知乎，再添加上自己的一些理解

理论推导

对于复合函数，存在如下定理：
$\|f \circ g\|_{Lip} \leq \| f \|_{Lip} \cdot \| g \|_{Lip}$
neutral network 正是由多个复合函数嵌套而成，最常见的嵌套方式如下： $f(g(f(g(\cdots))))$ ，其中 f 表示激活函数， $g$ 表示卷积操作（以CNN为例）。而 $f$ 常选取 LeakyRelu，Relu，Sigmoid，Tanh，而它们均为 1-Lipschitz。因此 $\|f \circ g\|_{Lip} \leq \| f \|_{Lip} \cdot \| g \|_{Lip}=\| g \|_{Lip}$ ，故要使得复合函数 $\circ g$ 为 1-Lipschitz，即需保证卷积操作 $g$ 是 1-Lipschitz，就可以保证整个网络都是 1-Lipschitz continous 的。

在图像上每个位置的卷积操作，正好就是做如下“局部区域“的变换：
$\| \text{unfold}_{raw}(M) \cdot \text{unfold}_{col}(x) \| = y$
其中 $\in R^{f×f}$ 为 local receptive field， $\in R^{f×f}$ 为卷积核， $y$ 为对应位置的卷积输出， $\text{unfold}_{raw}(\cdot)$ 将 $\cdot$ 按行展开成行向量， $\text{unfold}_{col}(\cdot)$ 将 $\cdot$ 按列展开成列向量。因此，只需保证 $\text{unfold}_{raw}(M)$ 是 1-Lipschitz，就可以使得整个 network 是 1-Lipschitz。

对任意矩阵 $A$ ( $\text{unfold}_{raw}(M)$ 是 $A$ 的一个具例)，存在如下定理：
$\begin{array}{ll} & A \in \text{K-Lipschitz}, \forall A: R^n \to R^m / \forall A \in R^{m×n} \\[.4em] \iff& \| A \overrightarrow{x} \| \leq K \| \overrightarrow{x} \|, \forall \overrightarrow{x} \in R^n \\[.4em] \iff& \langle A \overrightarrow{x}, A \overrightarrow{x} \rangle \leq K^2 \langle \overrightarrow{x}, \overrightarrow{x} \rangle \\[.4em] \iff& \overrightarrow{x}^T (A^TA - K^2I)\overrightarrow{x} \leq 0 \\[.4em] \iff& \langle (A^TA - K^2I) \overrightarrow{x}, \overrightarrow{x} \rangle \leq 0 \end{array} \tag{1}$
因