七、深度学习中的正则化

最新推荐文章于 2024-06-27 13:56:17 发布

你回到了你的家

最新推荐文章于 2024-06-27 13:56:17 发布

阅读量357

点赞数

分类专栏：深度学习理论文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/kking_edc/article/details/121133489

版权

深度学习理论专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习中的一个核心问题是设计不仅在训练数据上表现好，而且能在新输入上泛化（？）好的算法。在机器学习中，许多策略被显式地设计来减少测试误差（可能会以增大训练误差为代价）。这些策略被统称为正则化。

待补充 141

1 参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\Omega(\theta)$ ，限制模型（如神经网络、线性回归或逻辑回归）的学习能力。我们将正则化后的目标函数记为 $\tilde{J}$ ：

$\tilde{J}(\theta;X,y)=J(\theta;X,y)+\alpha\Omega(\theta)\quad\quad\quad\quad\quad(7.1)$

其中 $\alpha\in[0,\infty)$ 是权衡范数惩罚项 $\Omega$ 和标准目标函数 $F(X;\theta)$ 相对贡献的超参数。将 $\alpha$ 设为0表示没有正则化。 $\alpha$ 越大，对应正则化惩罚越大。

当我们的训练算法最小化正则化后的目标函数 $\tilde{J}$ 时，它会降低原始目标 $J$ 关于训练数据的误差并同时减小在某些衡量标准下参数 $\theta$ （或参数子集）的规模。选择不同的参数范数 $\Omega$ 会偏好不同的解。在本节中，我们会讨论各种范数惩罚对模型的影响。

在探究不同范数的正则化表现之前，我们需要说明一下，在神经网络中，参数包
括每一层仿射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。
精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相
互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅
控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，
正则化偏置参数可能会导致明显的欠拟合。因此，我们使用向量 w 表示所有应受范
数惩罚影响的权重，而向量 θ 表示所有参数 (包括 w 和无需正则化的参数)。

在神经网络的情况下，有时希望对网络的每一层使用单独的惩罚，并分配不同
的 α 系数。寻找合适的多个超参数的代价很大，因此为了减少搜索空间，我们会在
所有层使用相同的权重衰减。

1.1 $L^2$ 参数正则化

权重衰减（weight decay）是最简单且最常见的参数范数惩罚，它表现为 $L^2$ 参数范数惩罚。这个正则化策略通过向目标函
数添加一个正则项 $\Omega(\theta)=\frac{1}{2}\Vert w\Vert_2^2$ ，使权重更加接近原点（更一般地，我们可以将参数正则化为接近空间中的任意特定点，令人惊讶的是这样也仍有正则化效果，但是特定点越接近真实值结果越好。当我们不知道正确的值应该是正还是负时，零是有意义的默认值。由于模型参数正则化为零的情况更为常见，我们将只探讨这种特殊情况。）。在其他学术圈， $L^2$ 也被称为岭回归或 Tikhonov 正则。

我们可以通过研究正则化后目标函数的梯度，洞察一些权重衰减的正则化表现。为了简单起见，我们假定其中没有偏置参数，因此 $\theta$ 就是 $w$ 。这样一个模型具有以下总的目标函数：

$\tilde{J}(w;X,y)=\frac{\alpha}{2}w^Tw+J(w;X,y)\quad\quad\quad\quad(7.2)$

与之对应的梯度为

$\nabla_w\tilde{J}(w;X,y)=\alpha w+\nabla_wJ(w;X,y)\quad\quad\quad\quad(7.3)$

（？上面的公式推导）

使用单步梯度下降更新权重，即执行以下更新：

$w\leftarrow w-\epsilon(\alpha w+\nabla_wJ(w;X,y)).\quad\quad\quad\quad\quad(7.4)$

换一种写法，上式变为：

$w\leftarrow(1-\epsilon\alpha)w-\epsilon\nabla_wJ(w;X,y).\quad\quad\quad\quad(7.5)$

可以看到，加入权重衰减后会引起学习规则的修改，即在每步执行通常的梯度更新之前先收缩权重向量（将权重向量乘以一个常数因子）。这是单个步骤发生的变化。但是，在训练的整个过程会发生什么呢？

我们进一步简化分析，令 $w^*$ 为未正则化的目标函数取得最小训练误差时的权重向量，即 $w^*=\argmin\limits_{w}J(w)$ ，并在 $w^*$ 的邻域对目标函数做二次近似。如果目标函数确实是二次的 (如以均方误差拟合线性回归模型的情况)，则该近似是完美的。近似的 $\hat{J}(\theta)$ 如下：

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)\quad\quad\quad\quad(7.6)$

其中 $H$ 是 $J$ 在 $w^*$ 处计算的 Hessian 矩阵 (关于 $w$ )。因为 $w^*$ 被定义为最优，即梯度消失为 0，所以该二次近似中没有一阶项。同样地，因为 $w^*$ 是 $J$ 的一个最优点，我们可以得出 $H$ 是半正定的结论。（？）

当 $\hat{J}$ 取得最小时，其梯度

$\nabla_w\hat{J}(w)=H(w-w^*)\quad\quad\quad\quad(7.7)$

为0.（还是一个问题，这里是怎么推导的？）

为了研究权重衰减带来的影响，我们在式 (7.7) 中添加权重衰减的梯度。现在我们探讨最小化正则化后的 $\hat{J}$ 。我们使用变量 $\tilde{w}$ 表示此时的最优点：

$\alpha\tilde{w}+H(\tilde{w}-w^*)=0\quad\quad\quad\quad\quad(7.8)$
$(H+\alpha I)\tilde{w}=Hw^*\quad\quad\quad\quad\quad(7.9)$
$\tilde{w}=(H+\alpha I)^-1Hw^*\quad\quad\quad\quad\quad(7.10)$

（？矩阵什么时候可逆）

当 $\alpha$ 趋向于 0 时，正则化的解 $\tilde{w}$ 会趋向 $w^*$ 。那么当 $\alpha$ 增加时会发生什么呢？因为 $H$ 是实对称的，所以我们可以将其分解为一个对角矩阵 $\Lambda$ 和一组特征向量的标准正交基 $Q$ ，并且有 $H=Q\Lambda Q^T$ （？实对称矩阵的什么性质）。将其应用于式 (7.10) ，可得：

$\tilde{w}=(Q\Lambda Q^T+\alpha I)^{-1}Q\Lambda Q^Tw^*\quad\quad\quad\quad\quad\ \ (7.11)\\=[Q(\Lambda+\alpha I)Q^T]^{-1}Q\Lambda Q^T w^*\quad\quad\quad\quad(7.12)\\=Q(\Lambda+\alpha I)^{-1}\Lambda Q^Tw^*\quad\quad\quad\quad\quad\quad\quad(7.13)$

（？）中间推导

我们可以看到权重衰减的效果是沿着由 $H$ 的特征向量所定义的轴缩放 $w^*$ 。具体来说，我们会根据 $\frac{\lambda_i}{\lambda_i+\alpha}$ 因子缩放与 $H$ 第 $i$ 个特征向量对齐的 $w^*$ 的分量（图2.3中有这种缩放的原理）

沿着 $H$ 特征值较大的方向（如 $\lambda_i\gg\alpha$ ）正则化的影响较小。而 $\lambda_i\ll\alpha$ 的分量将会收缩到几乎为零。这种效应如图7.1所示：

在这里插入图片描述

只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向（对应 Hessian 矩阵较小的特征值）上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。

目前为止，我们讨论了权重衰减对优化一个抽象通用的二次代价函数的影响。这些影响具体是怎么和机器学习关联的呢？我们可以研究线性回归，它的真实代价函数是二次的，因此我们可以使用相同的方法分析。再次应用分析，我们会在这种情况下得到相同的结果，但这次我们使用训练数据的术语表述。线性回归的代价函数是平方误差之和：

$(Xw-y)^T(Xw-y)\quad\quad\quad\quad(7.14)$

我们添加 $L^2$ 正则项后，目标函数变为：

$(Xw-y)^T(Xw-y)+\frac{1}{2}\alpha w^Tw\quad\quad\quad\quad(7.15)$

这将普通方程的解从(?)：

$w=(X^TX)^{-1}X^Ty$

变为：

$w=(X^TX+\alpha I)^{-1}X^Ty\quad\quad\quad\quad\quad(7.17)$

式 (7.16) 中的矩阵 $X^TX$ 与协方差矩阵 $\frac{1}{m}X^TX$ 成正比。 $L^2$ 正则项将这个矩阵替换为式 (7.17) 中的 $(X^TX+\alpha I)^{-1}$ 这个新矩阵与原来的是一样的，不同的仅仅是在对角加了 $\alpha$ 。这个矩阵的对角项对应每个输入特征的方差。我们可以看到， $L^2$ 正则化能让学习算法 ‘‘感知’’ 到具有较高方差的输入 $x$ ，因此与输出目标的协方差较小（相对增加方差）的特征的权重将会收缩。(?)

1.2 $L^1$ 参数正则化

对模型参数 $w$ 的 $L^1$ 正则化被定义为：

$\Omega(\theta)=\Vert w\Vert_1=\sum\limits_{i}|w_i|\quad\quad\quad\quad(7.18)$

即各个参数的绝对值之和。接着我们将讨论 $L^1$ 正则化对简单线性回归模型的影响，与分析 $L^2$ 正则化时一样不考虑偏置参数。我们尤其感兴趣的是找出 $L^1$ 和 $L^2$ 正则化之间的差异。与 $L^2$ 权重衰减类似，我们也可以通过缩放惩罚项 $\Omega$ 的正超参数 $\alpha$ 来控制 $L^1$ 权重衰减的强度。因此，正则化的目标函数 $\tilde{J}(w;X,y)$ 如下所示：

$\tilde{J}(w;W,y)=\alpha\Vert w\Vert_1+J(w;X,y)\quad\quad\quad\quad\quad(7.19)$

对应的梯度（实际上是次梯度）（？）：

$\nabla_w\tilde{J}(w;X,y)=\alpha sign(w)+\nabla_wJ(w;X,y)\quad\quad\quad\quad(7.20)$

其中 $s i g n (w)$ 只是简单地取 $w$ 各个元素的正负号。

观察式 (7.20) ，我们立刻发现 $L^1$ 的正则化效果与 $L^2$ 大不一样。具体来说，我们可以看到正则化对梯度的影响不再是线性地缩放每个 $w_i$ ；而是添加了一项与 $sign(w_i)$ 同号的常数。使用这种形式的梯度之后，我们不一定能得到 $J (X, y; w)$ 二次近似的直接算术解（ $L^2$ 正则化时可以）。

简单线性模型具有二次代价函数，我们可以通过泰勒级数表示。或者我们可以设想，这是逼近更复杂模型的代价函数的截断泰勒级数。在这个设定下，梯度由下式给出

$\nabla_w\hat{J}(w)=H(w=w^*)\quad\quad\quad\quad\quad(7.21)$

你回到了你的家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
七、深度学习中的正则化

机器学习中的一个核心问题是设计不仅在训练数据上表现好，而且能在新输入上泛化（？）好的算法。在机器学习中，许多策略被显式地设计来减少测试误差（可能会以增大训练误差为代价）。这些策略被统称为正则化。待补充 1411 参数范数惩罚...
复制链接

扫一扫