l1正则化表达式_L1正则化和L2正则化的区别

正则化是机器学习中防止过拟合的重要手段,通过引入正则项对模型参数进行约束。L1正则化倾向于产生稀疏权重矩阵,使部分特征权重为零,而L2正则化则会使所有特征权重接近于零但不为零。正则化结合结构风险最小化原则,在减少训练误差的同时提升模型的泛化能力。
摘要由CSDN通过智能技术生成

首先我们看一下在机器学习中的损失函数

82b24208d63448de1b5189c115e5f346.png

上述公式中的第二项就是正则项

我们为什么要使用正则化?

b791601211256c93e6c21f7b0638f862.png

b2cb3c7aa82074142e5371b3b1245937.png


我们对梯度下降的式子进行推导一下:

8c049ecfdd4bc39cc12e94099662f03a.png

故: θj:=θj−[1mi=1n((x(i))−y(i))2+2λθj]

由上可以看出,当正则项系数 λ 很大时,对参数的惩罚也将很大,导致在梯度更新后对应的 θj 值很小。由此可以使得对某些参数最终接近于 0 。而正则项系数 λ 即为模型复杂度的惩罚项,当其很大时,模型复杂度将变小,也就是模型将更为简单,不会使得对数据过于拟合。

从结构风险最小化角度来说,就是在经验风险最小化的基础上(即训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。

使用正则化,我们通常用L1正则化和L2正则化,那么它们有什么区别呢?

d548d9a8a79dd82788bc438958756c62.png

8f47741d6200cad9afdad05d2c0baf44.png
  • L1是模型各个参数的绝对值之和。
  • L2是模型各个参数的平方和的开方值。
  • L1会趋向于产生少量的特征,而其他的特征都是零,因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为零,产生稀疏权重矩阵。
  • L2会选择更多的特征,这些特征都会接近于零,最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是零,当最小化‖w‖时,就会使每一项趋近于零。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值