机器学习笔记之正则化(一)拉格朗日乘数法角度

静静的喝酒

已于 2023-09-01 18:31:26 修改

阅读量1k

点赞数

分类专栏：机器学习算法八股查漏补缺深度学习文章标签：机器学习算法拉格朗日乘数法正则化过拟合

于 2023-04-03 19:30:10 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/129927883

版权

机器学习笔记之正则化——拉格朗日乘数法角度

引言

引言

从本节开始，将介绍正则化，并从拉格朗日乘数法角度进行观察。

回顾：基于正则化的最小二乘法

对应《深度学习》(花书) P147 7.3 正则化与欠约束问题

在处理线性回归任务过程中，我们以 $L_2$ 正则化( $\text{Regularization}$ )为例介绍了正则化在最小二乘法损失函数的作用。

关于最小二乘估计关于权重 $\mathcal W$ 的矩阵形式表达公式表示如下：
$\begin{cases} \mathcal L(\mathcal W) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y \\ \hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W) \end{cases}$
对 $\mathcal L(\mathcal W)$ 关于 $\mathcal W$ 求解偏导，求解最优值 $\hat {\mathcal W}$ ：
$\begin{cases} \begin{aligned} \frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} = 2\mathcal X^T\mathcal X\mathcal W - 2\mathcal X^T\mathcal Y \triangleq 0 \end{aligned} \\ \hat {\mathcal W} = (\mathcal X^T\mathcal X)^{-1}\mathcal X^T\mathcal Y \end{cases}$
关于 $L_2$ 正则化的最小二乘估计 $\mathcal L(\mathcal W,\lambda)$ 表示为：
$\mathcal L(\mathcal W,\lambda) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y + \lambda \mathcal W^T\mathcal W$
对应最优解表示为：
$\hat {\mathcal W} = (\mathcal X^T\mathcal X + \lambda \mathcal I)^{-1} \mathcal X^T\mathcal Y$
关于前后加正则化的权重最优解对比发现，在 $N$ 阶方阵 $\mathcal X^T\mathcal X$ 每个主对角线元素中添加了一个 $\lambda$ 。这样能够保证 $\mathcal X^T\mathcal X$ 必然是正定矩阵，而不单是实对称矩阵。如果 $\mathcal X^T\mathcal X$ 不是满秩矩阵，从而无法求解矩阵的逆 $\Lambda^{-1}$ ：
其中 $\mathcal Q$ 表示正交矩阵。
$\mathcal X^T\mathcal X = \mathcal Q\Lambda\mathcal Q^T$

正则化描述

正则化的优化对象

正则化，本质上是一种减少过拟合的方法。在神经网络中，关于正则化的描述是指关于权重 $\mathcal W$ 的正则化。在神经网络中，参数分为两类：权重 $(\text{Weight})$ 、偏置 $(\text{Bias})$ 。

权重影响的是神经网络所逼近函数的形状；而偏置影响的是函数的位置信息。在神经网络学习过程中，一旦对权重进行约束，偏置也会随之进行调整。因此对偏置进行约束意义不大。
从 $\text{M-P}$ 神经元的角度观察，偏置本身就是激活神经元的阈值。而阈值可看作是某权重与对应哑结点( $\text{Dummy Node}$ )的线性结果，因而可以在学习过程中将阈值的学习包含在权重中( $\mathcal W_{\text{Dum}} \in \mathcal W$ )：
$\theta = \mathcal W_{\text{Dum}} \cdot \underbrace{x_{\text{Dum}}}_{\text{fixed}=-1}$