机器学习问题汇总之L1和L2正则化

最新推荐文章于 2023-05-20 00:17:42 发布

hu_wenqiong

最新推荐文章于 2023-05-20 00:17:42 发布

阅读量472

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hu_wenqiong/article/details/97897208

版权

本文介绍了L1和L2正则化在机器学习中的概念与区别。L1正则化导致权重稀疏，适合特征选择，而L2正则化使权重平滑，有助于防止过拟合。通过解空间形状、函数叠加和贝叶斯先验的角度深入探讨了L1和L2正则化的特性。L1正则化的优点在于其优化求解特性，适用于特征稀疏的场景。

摘要由CSDN通过智能技术生成

1、什么是L1正则&L2正则：

2、两者的区别是什么

L1正则是指在损失函数中加入向量权值w的绝对值之和，即各个元素的绝对值之和，L2正则是在损失函数中加入权值向量w的平方和。
L1的功能是使权重稀疏（可以进行变量选择），而L2的功能是使权重平滑。

3、L1正则为什么可以得到稀疏解？

解空间形状

也就是说：L2正则化相当于为参数定义了一个圆形的解空间，而L1正则化为参数定义了一个菱形的解空间。L1“棱角分明”的解空间显然更容易与目标函数等高线在脚点碰撞。从而产生稀疏解。事实上，为什么他们会在坐标轴上相切是一个特别复杂的问题，我在某个暑期学校上问过一个研究这个课题的教授，他笑笑说：这是一个好问题，事实上证明起来非常复杂，而且还能够证明越高维的情况他们越容易相切。

函数叠加

为了直观，我们考虑一维的情况：横轴是参数的值，纵轴是损失函数，加入正则项之后，损失函数图的变化如下：

在加入了L1正则化之后，最小值在红点处，对应的w是0。而加入了L2正则后，最小值在黄点处，对应的w不为0。

这是因为L1正则使得目标函数变为L（w）+C|w|，单对正则化部分求导，原点左边是-C,右边是C，因此，只要原目标函数求导|L'(w)|＜C，那么带L1正则项的目标函数在原点左边部分始终递减，在原点右边部分始终递增，最小值点自然会出现在原点处。而加入L2正则后，目标函数变为L（w）+Cw^2，只要原目标函数在原点处的导数不为0，那么带L2正则项的目标函数在原点处的导数就不为0，那么最小值就不会在原点。因此L2正则只有见效w绝对值的作用，但并不能产生稀疏解。

贝叶斯先验

从贝叶斯角度来看，L1正则化相当于对模型参数w引入了拉普拉斯先验，L2正则化相当于引入了高斯先验。而这两种分布的形状如下：

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习问题汇总之L1和L2正则化

1、什么是L1正则&L2正则：2、两者的区别是什么L1正则是指在损失函数中加入向量权值w的绝对值之和，即各个元素的绝对值之和，L2正则是在损失函数中加入权值向量w的平方和。 L1的功能是使权重稀疏（可以进行变量选择），而L2的功能是使权重平滑。3、L1正则为什么可以得到稀疏解？解空间形状也就是说：L2正则化相当于为参数定义了一个圆形的解空间，而L1正则化为参数定义了一...
复制链接

扫一扫

专栏目录

博客等级

码龄6年

13
原创

63
点赞

526
收藏

43
粉丝

关注

私信

热门文章

分类专栏

最新评论

kaggle练习-共享单车数据
–one: 可以分享一下数据嘛
kaggle练习-共享单车数据
weixin_48543770: 同学你找到数据了么？
kaggle练习-共享单车数据
double珊: 博主可以分享一下共享单车的数据集嘛，kaggle上注册不了账号，所以下载不了
数据分析面试中的业务问题
lmaoxuema: 谢谢分享！很受用
kaggle练习-共享单车数据
1129的阳光: 代替作者回复大家数据网址：https://www.kaggle.com/c/bike-sharing-demand/data

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。