机器学习基础篇-正则化

正则化项

正则化是一种防止模型过拟合的方法,它常被添加在损失函数中。

L2正则化项
m i n J ( W , b ) = 1 m ∑ i = 1 m L ( y ^ i , y i ) + λ 2 m ∣ ∣ W ∣ ∣ 2 2 minJ(W,b)=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,{y}^i)+\frac{\lambda}{2m}||W||^2_2 minJ(W,b)=m1i=1mL(y i,yi)+2mλW22

在上式公式中, λ 2 m ∣ ∣ W ∣ ∣ 2 2 \frac{\lambda}{2m}||W||^2_2 2mλW22就是正则化项, λ \lambda λ表示正则化项的超参数,也可以间接理解为学习率。
L2正则化也可以理解为一种权重衰减的方法。

对于逻辑回归模型,W作为一种参数(W的维度取决于特征的维度),那么L2正则化项可以表示为:
∣ ∣ W ∣ ∣ 2 2 = ∑ j = 1 d i m e n s i o n W j 2 ||W||_2^2=\sum^{dimension}_{j=1}W^2_j W22=j=1dimensionWj2

对于具有多层的神经网络模型,层与层之间存在多个参数矩阵。每层W的矩阵可以表达为 ( n [ l ] , n [ l − 1 ] ) (n^{[l]},n^{[l-1]}) n[l],n[l1],在等式中, l l l表示第 l l l层隐层, n [ l ] n^{[l]} n[l]表示第 l l l层隐层的神经元个数,所以,L2正则化项可以表示为:
λ 2 m ∑ l = 1 L ∣ ∣ W l ∣ ∣ 2 2 ∣ ∣ W l ∣ ∣ 2 2 = ∑ i = 1 n ∣ l − 1 ∣ ∑ j = 1 n ∣ l ∣ ( W i j l ) 2 \frac{\lambda}{2m}\sum^L_{l=1}||W^l||^2_2 \\ ||W^l||^2_2=\sum^{n^{|l-1|}}_{i=1} \sum^{n^{|l|}}_{j=1}(W_{ij}^l)^2 2mλl=1LWl22Wl22=i=1nl1j=1nl(Wijl)2

L1正则化项
m i n J ( W , b ) = 1 m ∑ i = 1 m L ( y ^ i , y i ) + λ 2 m ∣ ∣ W l ∣ ∣ ∣ ∣ W l ∣ ∣ = ∑ i = 1 n ∣ l − 1 ∣ ∑ j = 1 n ∣ l ∣ W i j l minJ(W,b)=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,{y}^i)+\frac{\lambda}{2m}||W^l||\\ ||W^l||=\sum^{n^{|l-1|}}_{i=1}\sum^{n^{|l|}}_{j=1}W^l_{ij} minJ(W,b)=m1i=1mL(y i,yi)+2mλWlWl=i=1nl1j=1nlWijl

如果我们采用L1正则化,那么参数W会变得很稀疏。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.Wiggles

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值