L0，L1，L2

最新推荐文章于 2023-03-29 20:09:52 发布

charon____

最新推荐文章于 2023-03-29 20:09:52 发布

阅读量482

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lcharon/article/details/65657069

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

L0范数

向量中非0的元素的个数

L1范数

向量中各个元素绝对值之和

别名

“稀疏规则算子”（Lasso regularization）

L0 L1都可以实现稀疏， L1比L0有更好的优化求解特性

L0范数难求解，NP难问题
L1是L0范数的最优凸近似，更易于求解

稀疏优点

特征自动选择
稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。
可解释性

L2范数

向量各元素的平方和然后求平方根
别名

在回归里面，叫“岭回归”（Ridge Regression）或者“权值衰减weight decay”
Ridge

优点：

防止过拟合，提升模型泛化能力
有助于处理运算困难问题（condition number不好的情况下矩阵求逆）

condition number是一个矩阵（或者它所描述的线性系统）的稳定性或者敏感度的度量，如果一个矩阵的condition number在1附近，那么它就是well-conditioned的，如果远大于1，那么它就是ill-conditioned的，如果一个系统是ill-conditioned的，它的输出结果就不要太相信了。
对于一个ill-condition的系统，输入稍微改变，输出就发生很大的改变
假设我们有个方程组AX=b，我们需要求解X。如果A或者b稍微的改变，会使得X的解发生很大的改变，那么这个方程组系统就是ill-condition的，反之就是well-condition的。

总结

L1会趋向于产生少量的特征，而其他的特征都是0
L2会选择更多的特征，这些特征都会接近于0
Lasso在特征选择时候非常有用
Ridge只是一种规则化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。