深度学习中的正则化--花书第7章

最新推荐文章于 2022-02-20 12:35:00 发布

JL_Jessie

最新推荐文章于 2022-02-20 12:35:00 发布

阅读量372

点赞数

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/m0_37531129/article/details/105623952

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习的核心问题是设计不仅在训练集上表现好, 并且在新输入上泛化好的算法.许多策略被用来减少测试误差(这些策略在减少测试误差的同时有可能增加训练误差),这就叫正则化.

参数范数惩罚

原始目标函数为 $J$ . 添加正则化后的目标函数为 $\widetilde J$ : $\widetilde J(\theta; X,y)=J(\theta;X,y)+\alpha\Omega(\theta)$
其中 $\alpha\in[0,\infty)$ 是权衡范数惩罚项 $\Omega$ 和标准目标函数之间相对贡献的超参数. $\alpha$ 为0 表示没有正则化, $\alpha$ 越大对应正则化惩罚越大.
这里说明一下，神经网络里面的参数包括每一层的权重和偏置，我们通常只对权重做惩罚不对偏置做惩罚，因为精确拟合偏置所需要的数据通常比拟合权重少的多，每个权重回指定两个变量如何相互作用，我们需要在各个条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量，这意味着，不对对其正则化也不会导致太大的方差，此外正则化偏置参数可能会导致明显的欠拟合。
下面我们使用参数 $\theta$ 表示所有参数（权重 $w$ 和偏置 $b$ ）, $w$ 是所有受惩罚的权重， $b$ 是无需正则化的偏置参数。

L2 参数正则化

$L^2$ 正则化被称为权重衰减. 是通过向目标函数添加一个正则项 $\Omega(\theta)=\frac{1}{2}||w||^2_2$ 使得权重更加接近原点. (在其他地方,L2正则也称为岭回归)

我们来看一下权重衰减的正则化表现, 这里我们是通过研究正则化后的目标函数的梯度来观测权重衰减在正则化前后的变化.

(为了简单起见, 我们假设没有偏置参数) 因此 $\theta$ 就是 $w$ . 下面只有参数w 所以是针对ｗ的梯度。

L2正则模型的总的目标函数为： $\widetilde J(w;X,y) = \frac{\alpha}{2}w^Tw + J(w;X,y)$ 其梯度为：
$\Delta_w \widetilde J(w;X,y) =\alpha w + \Delta_wJ(w;X,y)$

1）使用单步梯度下降更新权重时： $\leftarrow w-\varepsilon(\alpha w + \Delta_wJ(w;X,y)) ，其中 \varepsilon 是学习率$ 即 $\leftarrow (1-\varepsilon\alpha)w -\varepsilon\Delta_wJ(w;X,y)$

根据上式可以看到单步梯度下降的结论：加入权重衰减后会引起学习规则修改，即在每步执行梯度更新时会先收缩权重向量

2）令 $w^*$ 为没有正则化的目标函数取得最小训练误差时的权重向量（未正则化 $J$ 的最优解）即 $w^* = argmin_wJ(w)$ 。
我们在 $w^*$ 邻域对目标函数做二次近似 $\hat J(w)$
（注：二次近似也就是泰勒公式展开到二次项如 $f (x)$ 在x=a 处展开 $\frac{f(a)}{0!} + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^2 + ...$ )

所以在 $w^*$ 邻域二次展开: $\hat J(w) = \frac{J(w^*)}{0!}+ \frac{J'(w^*)}{1!}(w-w^*) + \frac{J''(w^*)}{2!}(w-w^*)^2 = J(w^*) + \frac {1}{2}(w-w*)^TH(w-w*)$
$其中H 是hessian矩阵，因为w^*是J 的最优解所以J'(w*) = 0$

当 $\hat J(w)$ 取最小时，上式的梯度 $\Delta \hat J(w) = H(w-w^*)$ 为0.
为了研究权重衰减的影响，在 $\Delta \hat J(w)$ 中添加权重衰减的梯度, 然后讨论最小化正则化之后的 $\hat J$ ，使用 $\tilde{w}$ 表示正则化之后的最优点, 则如下： $\alpha \tilde{w} + H(\tilde w - w^*) = 0 \Longrightarrow (H + \alpha I)\tilde w=Hw^* \Longrightarrow \tilde w= (H+\alpha I )^{-1} H w^*$
当 $\alpha$ 接近于0 时， $\tilde w$ 接近于 $w^*$ 。当 $\alpha$ 增大时，会如何？我们可以看到H 是实对称矩阵，可以分解为对角阵 $\wedge$ 和一组特征向量的标准正交基Q，并且有 $=Q\wedge Q^T$ , 将其带入上面 $\tilde w$ 中可以得到： $\tilde w = (Q \wedge Q^T) ^ {-1} Q \wedge Q^T w^* = [Q(\wedge + \alpha I) Q^T]^{-1}Q \wedge Q^T w^* = Q(\wedge + \alpha I)^{-1} \wedge Q^T w^*$

我们可以看到权重衰减的效果是沿着由H的特征向量所定义的轴缩放 $w^*$ 具体地会根据 $\frac {\lambda_i} {\lambda_i +\alpha}$ 因子缩放与H 第i个特征向量对齐的 $w^*$ 分量。沿着H 特征值较大的方向（ $\lambda_i >> \alpha$ ）正则化的影响较小，而 $\lambda_i << \alpha$ 的分量将会收缩到几乎为0.

在这里插入图片描述

图中 $w^*$ 是未正则化的最优值， $\tilde w$ 是加上正则化后的最优值，当 $w^*$ 水平移动时，目标函数不会增加太多，所以正则化对改该轴有较强的作用，把w1拉的更靠近原点。而对于w2，由于目标函数沿着w2方向远离 $w^*$ 时值变化较大，所以对应的特征值比较大，因此权重衰减影响较小。