机器学习笔记之正则化——拉格朗日乘数法角度
引言
从本节开始,将介绍正则化,并从拉格朗日乘数法角度进行观察。
回顾:基于正则化的最小二乘法
对应《深度学习》(花书) P147 7.3 正则化与欠约束问题
在处理线性回归任务过程中,我们以 L 2 L_2 L2正则化( Regularization \text{Regularization} Regularization)为例介绍了正则化在最小二乘法损失函数的作用。
关于最小二乘估计关于权重 W \mathcal W W的矩阵形式表达公式表示如下:
{ L ( W ) = W T X T X W − 2 W T X T Y + Y T Y W ^ = arg min W L ( W ) \begin{cases} \mathcal L(\mathcal W) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y \\ \hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W) \end{cases} ⎩
⎨
⎧L(W)=WTXTXW−2WTXTY+YTYW^=WargminL(W)
对 L ( W ) \mathcal L(\mathcal W) L(W)关于 W \mathcal W W求解偏导,求解最优值 W ^ \hat {\mathcal W} W^:
{ ∂ L ( W ) ∂ W = 2 X T X W − 2 X T Y ≜ 0 W ^ = ( X T X ) − 1 X T Y \begin{cases} \begin{aligned} \frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} = 2\mathcal X^T\mathcal X\mathcal W - 2\mathcal X^T\mathcal Y \triangleq 0 \end{aligned} \\ \hat {\mathcal W} = (\mathcal X^T\mathcal X)^{-1}\mathcal X^T\mathcal Y \end{cases} ⎩
⎨
⎧∂W∂L(W)=2XTXW−2XTY≜0W^=(XTX)−1XTY
关于 L 2 L_2 L2正则化的最小二乘估计 L ( W , λ ) \mathcal L(\mathcal W,\lambda) L(W,λ)表示为:
L ( W , λ ) = W T X T X W − 2 W T X T Y + Y T Y + λ W T W \mathcal L(\mathcal W,\lambda) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y + \lambda \mathcal W^T\mathcal W L(W,λ)=WTXTXW−2WTXTY+YTY+λWTW
对应最优解表示为:
W ^ = ( X T X + λ I ) − 1 X T Y \hat {\mathcal W} = (\mathcal X^T\mathcal X + \lambda \mathcal I)^{-1} \mathcal X^T\mathcal Y W^=(XTX+λI)−1XTY
关于前后加正则化的权重最优解对比发现,在 N N N阶方阵 X T X \mathcal X^T\mathcal X XTX每个主对角线元素中添加了一个 λ \lambda λ。这样能够保证 X T X \mathcal X^T\mathcal X XTX必然是正定矩阵,而不单是实对称矩阵。如果 X T X \mathcal X^T\mathcal X XTX不是满秩矩阵,从而无法求解矩阵的逆 Λ − 1 \Lambda^{-1} Λ−1:
其中
Q \mathcal Q Q表示正交矩阵。
X T X = Q Λ Q T \mathcal X^T\mathcal X = \mathcal Q\Lambda\mathcal Q^T XTX=QΛQT
正则化描述
正则化的优化对象
正则化,本质上是一种减少过拟合的方法。在神经网络中,关于正则化的描述是指关于权重 W \mathcal W W的正则化。在神经网络中,参数分为两类:权重 ( Weight ) (\text{Weight}) (Weight)、偏置 ( Bias ) (\text{Bias}) (Bias)。
-
权重影响的是神经网络所逼近函数的形状;而偏置影响的是函数的位置信息。在神经网络学习过程中,一旦对权重进行约束,偏置也会随之进行调整。因此对偏置进行约束意义不大。
-
从 M-P \text{M-P} M-P神经元的角度观察,偏置本身就是激活神经元的阈值。而阈值可看作是某权重与对应哑结点( Dummy Node \text{Dummy Node} Dummy Node)的线性结果,因而可以在学习过程中将阈值的学习包含在权重中( W Dum ∈ W \mathcal W_{\text{Dum}} \in \mathcal W WDum∈W):
θ = W Dum ⋅ x Dum ⏟ fixed = − 1 \theta = \mathcal W_{\text{Dum}} \cdot \underbrace{x_{\text{Dum}}}_{\text{fixed}=-1} θ=WDum⋅fixed=−1 xDum
因此,正则化的优化对象是权重参数 W \mathcal W W。
常见的正则化方法
常见的正则化方法是 L 1 , L 2 L_1,L_2 L1,L2正则化。这里的 L 1 , L 2 L_1,L_2 L1,L2是指对应范数的类型。以 L 2 L_2 L2范数为例。假设某权重 W \mathcal W W是一个 p p p维向量:
W = ( w 1 , w 2 , ⋯ , w p ) T \mathcal W = (w_1,w_2,\cdots,w_p)^T W=(w1,w