L1和L2正则化

L 1 和 L 2 正 则 化 L1和L2正则化 L1L2

https://www.cnblogs.com/zingp/p/10375691.html#_label3

https://www.bilibili.com/video/BV1aE411L7sj?p=6&spm_id_from=pageDriver

模型的拟合过程

在这里插入图片描述

1.如何防止模型过拟合

解答:加正则项

2.有哪些正则项?

解答:有L1正则和L2正则,在数学形式上,L1正则是权重参数绝对值的和,L2正则是权重参数平方和

模型的复杂度和模型的参数量有关。L1正则和L2正则可以使模型的参数等于0或趋向于0,达到了一种另类减少参数量的效果。

L1正则的稀疏性使得模型的参数可以等于0,就相当于一种特征选择的过程。

为什么正则化能够防止过拟合?

我们常用的损失函数,又叫做经验风险最小化。所以会产生过拟合的问题!

所以我们对我们的目标函数加上上了正则化项,变成结构风险最小化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

KKT条件

在这里插入图片描述

拉格朗日函数

在这里插入图片描述

在这里插入图片描述

所以,所以,所以:损失函数里面加了正则化项,就相当于对训练的权重参数加了限制。(两者等价)

在这里插入图片描述

等值线(地理上的等高线)

在这里插入图片描述

为什么L1正则具有稀疏性?即为什么L1正则可以使模型权重参数可以为0,达到了一种特征选择的效果

1.从解空间的形状角度,来解答为什么L1具有稀疏性

L1正则是个类似菱形的多边形,有棱有角,更容易让权重参数为0
L2正则是个类似于圆形状,不容易让权重参数为0

在这里插入图片描述

在这里插入图片描述
在交点处,获得最佳参数

在这里插入图片描述
从图中可以看出,损失函数更容易在w1,w2等于0的时候,和L1正则相交
而作为圆形的L2正则很难正好在w1,w2等于0的时候与损失函数相交

2.从概率的角度出发(贝叶斯最大后验概率估计)

加上了L1正则,就是假设事件符合拉普拉斯分布
加上了L2正则,就是假设事件符合正态分布

从下图可以看出,拉普拉斯分布(红线),又高又尖,更容易得到0
在这里插入图片描述

正则化项的参数选择

λ越大,L2圆的半径越小,最后求得代价函数最值时各参数也会变得很小;当然也不是越大越好,太大容易引起欠拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值