机器学习笔记之正则化(一)拉格朗日乘数法角度

引言

从本节开始,将介绍正则化,并从拉格朗日乘数法角度进行观察。

回顾:基于正则化的最小二乘法

对应《深度学习》(花书) P147 7.3 正则化与欠约束问题

在处理线性回归任务过程中,我们以 L 2 L_2 L2正则化( Regularization \text{Regularization} Regularization)为例介绍了正则化在最小二乘法损失函数的作用。

关于最小二乘估计关于权重 W \mathcal W W矩阵形式表达公式表示如下:
{ L ( W ) = W T X T X W − 2 W T X T Y + Y T Y W ^ = arg ⁡ min ⁡ W L ( W ) \begin{cases} \mathcal L(\mathcal W) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y \\ \hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W) \end{cases} L(W)=WTXTXW2WTXTY+YTYW^=WargminL(W)
L ( W ) \mathcal L(\mathcal W) L(W)关于 W \mathcal W W求解偏导,求解最优值 W ^ \hat {\mathcal W} W^
{ ∂ L ( W ) ∂ W = 2 X T X W − 2 X T Y ≜ 0 W ^ = ( X T X ) − 1 X T Y \begin{cases} \begin{aligned} \frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} = 2\mathcal X^T\mathcal X\mathcal W - 2\mathcal X^T\mathcal Y \triangleq 0 \end{aligned} \\ \hat {\mathcal W} = (\mathcal X^T\mathcal X)^{-1}\mathcal X^T\mathcal Y \end{cases} WL(W)=2XTXW2XTY0W^=(XTX)1XTY
关于 L 2 L_2 L2正则化的最小二乘估计 L ( W , λ ) \mathcal L(\mathcal W,\lambda) L(W,λ)表示为:
L ( W , λ ) = W T X T X W − 2 W T X T Y + Y T Y + λ W T W \mathcal L(\mathcal W,\lambda) = \mathcal W^T\mathcal X^T\mathcal X \mathcal W - 2 \mathcal W^T\mathcal X^T\mathcal Y + \mathcal Y^T\mathcal Y + \lambda \mathcal W^T\mathcal W L(W,λ)=WTXTXW2WTXTY+YTY+λWTW
对应最优解表示为:
W ^ = ( X T X + λ I ) − 1 X T Y \hat {\mathcal W} = (\mathcal X^T\mathcal X + \lambda \mathcal I)^{-1} \mathcal X^T\mathcal Y W^=(XTX+λI)1XTY
关于前后加正则化的权重最优解对比发现,在 N N N阶方阵 X T X \mathcal X^T\mathcal X XTX每个主对角线元素中添加了一个 λ \lambda λ。这样能够保证 X T X \mathcal X^T\mathcal X XTX必然是正定矩阵,而不单是实对称矩阵。如果 X T X \mathcal X^T\mathcal X XTX不是满秩矩阵,从而无法求解矩阵的逆 Λ − 1 \Lambda^{-1} Λ1
其中 Q \mathcal Q Q表示正交矩阵。
X T X = Q Λ Q T \mathcal X^T\mathcal X = \mathcal Q\Lambda\mathcal Q^T XTX=QΛQT

正则化描述

正则化的优化对象

正则化,本质上是一种减少过拟合的方法。在神经网络中,关于正则化的描述是指关于权重 W \mathcal W W的正则化。在神经网络中,参数分为两类:权重 ( Weight ) (\text{Weight}) (Weight)偏置 ( Bias ) (\text{Bias}) (Bias)

  • 权重影响的是神经网络所逼近函数的形状;而偏置影响的是函数的位置信息。在神经网络学习过程中,一旦对权重进行约束,偏置也会随之进行调整。因此对偏置进行约束意义不大。

  • M-P \text{M-P} M-P神经元的角度观察,偏置本身就是激活神经元的阈值。而阈值可看作是某权重与对应哑结点( Dummy Node \text{Dummy Node} Dummy Node)的线性结果,因而可以在学习过程中将阈值的学习包含在权重中( W Dum ∈ W \mathcal W_{\text{Dum}} \in \mathcal W WDumW):
    θ = W Dum ⋅ x Dum ⏟ fixed = − 1 \theta = \mathcal W_{\text{Dum}} \cdot \underbrace{x_{\text{Dum}}}_{\text{fixed}=-1} θ=WDumfixed=1 xDum

因此,正则化的优化对象是权重参数 W \mathcal W W

常见的正则化方法

常见的正则化方法是 L 1 , L 2 L_1,L_2 L1,L2正则化。这里的 L 1 , L 2 L_1,L_2 L1,L2是指对应范数的类型。以 L 2 L_2 L2范数为例。假设某权重 W \mathcal W W是一个 p p p维向量:
W = ( w 1 , w 2 , ⋯   , w p ) T \mathcal W = (w_1,w_2,\cdots,w_p)^T W=(w1,w

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值