机器学习问题汇总之L1和L2正则化

本文介绍了L1和L2正则化在机器学习中的概念与区别。L1正则化导致权重稀疏,适合特征选择,而L2正则化使权重平滑,有助于防止过拟合。通过解空间形状、函数叠加和贝叶斯先验的角度深入探讨了L1和L2正则化的特性。L1正则化的优点在于其优化求解特性,适用于特征稀疏的场景。
摘要由CSDN通过智能技术生成

1、什么是L1正则&L2正则:

2、两者的区别是什么

  • L1正则是指在损失函数中加入向量权值w的绝对值之和,即各个元素的绝对值之和,L2正则是在损失函数中加入权值向量w的平方和。
  • L1的功能是使权重稀疏(可以进行变量选择),而L2的功能是使权重平滑。

3、L1正则为什么可以得到稀疏解?

  • 解空间形状

也就是说:L2正则化相当于为参数定义了一个圆形的解空间,而L1正则化为参数定义了一个菱形的解空间。L1“棱角分明”的解空间显然更容易与目标函数等高线在脚点碰撞。从而产生稀疏解。事实上,为什么他们会在坐标轴上相切是一个特别复杂的问题,我在某个暑期学校上问过一个研究这个课题的教授,他笑笑说:这是一个好问题,事实上证明起来非常复杂,而且还能够证明越高维的情况他们越容易相切。

  • 函数叠加

为了直观,我们考虑一维的情况:横轴是参数的值,纵轴是损失函数,加入正则项之后,损失函数图的变化如下:

在加入了L1正则化之后,最小值在红点处,对应的w是0。而加入了L2正则后,最小值在黄点处,对应的w不为0。

这是因为L1正则使得目标函数变为L(w)+C|w|,单对正则化部分求导,原点左边是-C,右边是C,因此,只要原目标函数求导|L'(w)|<C,那么带L1正则项的目标函数在原点左边部分始终递减,在原点右边部分始终递增,最小值点自然会出现在原点处。而加入L2正则后,目标函数变为L(w)+Cw^2,只要原目标函数在原点处的导数不为0,那么带L2正则项的目标函数在原点处的导数就不为0,那么最小值就不会在原点。因此L2正则只有见效w绝对值的作用,但并不能产生稀疏解。

  • 贝叶斯先验

从贝叶斯角度来看,L1正则化相当于对模型参数w引入了拉普拉斯先验,L2正则化相当于引入了高斯先验。而这两种分布的形状如下:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值