范数正则化L0、L1、L2-岭回归&Lasso回归

最新推荐文章于 2024-05-13 12:52:03 发布

陈宸-研究僧

最新推荐文章于 2024-05-13 12:52:03 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35883464/article/details/89919325

版权

目录

一、L0/L1范数

1、分别定义

2、两者关系：

3、参数稀疏的好处

1）特征选择(Feature Selection)：

2）可解释性(Interpretability)：

四、L1（Lasso）、L2（岭回归）范数

五、Lasso算法和岭回归算法区别

1、梯度下降速度

2、模型空间的限制

延伸一：L1&L2正则化一起结合的Elastic Nets效果真的很好吗？

一、L0/L1范数

1、分别定义

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。都为稀疏。

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。

2、两者关系：

为什么L1范数会使权值稀疏？有人可能会这样给你回答“它是L0范数的最优凸近似”。

任何的L0规则化算子，如果他在Wi=0的地方不可微（L1），并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。

L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

3、参数稀疏的好处

1）特征选择(Feature Selection)：

大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。

2）可解释性(Interpretability)：

另一个青睐于稀疏的理由是，模型更容易解释。例如患某种病的概率是y，然后我们收集到的数据x是1000维的，也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型：y=w1*x1+w2*x2+…+w1000*x1000+b（当然了，为了让y限定在[0,1]的范围，一般还得加个Logistic函数）。通过学习，如果

最低0.47元/天解锁文章

陈宸-研究僧

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
范数正则化L0、L1、L2-岭回归&Lasso回归

目录一、L0/L1范数1、分别定义2、两者关系：3、参数稀疏的好处1）特征选择(Feature Selection)：2）可解释性(Interpretability)：四、L1（Lasso）、L2（岭回归）范数五、Lasso算法和岭回归算法区别1、梯度下降速度2、模型空间的限制延伸一：L1&L2正则化一起结合的Elastic Nets效果真的很好...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。