线性回归中 给损失函数加的正则项L1和L2

正则化(Regularization)
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。
L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为||w||1
L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为||w||2

一般都会在正则化项之前添加一个系数,Python中用α
表示,一些文章也用λ
表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用?下面是L1正则化和L2正则化的作用,这些表述可以在很多文章中找到。

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择(lasso)
L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合(岭回归)。

算法
直接求解w^=(XTX)−1Xy
(即最小二乘法,又称最小平方法)可能会遇到什么问题?
1)只有当矩阵X是满秩的时候,才可以用最小二乘法。也就是多个因变量必须是相互独立的,如果相互之间关联较强,或者样本点比较少的时候,很可能造成X
就不是满秩的,因为X−1(x的负1次方)是不可逆的。
2)计算大型逆矩阵复杂度高,在处理大规模数据的时候,耗时长。

岭回归(Ridge)
第一种,
“是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更稳定、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。”
从上面这段话我们可以看出,全面理解岭回归需要先弄清楚以下一些关键的问题(概念):
1)什么是共线性数据?
2)方程组中方程的个数少于特征个数是不是也是类似的情况?
3)病态矩阵是什么?
4)什么是有偏估计和无偏估计?
5)为什么说放弃无偏性就可以使得模型更可靠?
6)怎么样做才能放弃无偏性,提高模型的稳定性?
2)欠定方程组的情况
第二种,
还有一种情况与共线性数据有所不同,也是岭回归适合解决的问题,在这里提一下:当样本点比较少,而特征比较多,特征个数多于样本个数,这时候输入数据的矩阵X
是非满秩的,最直白的话就是方程的个数少于未知数,也就是欠定方程组,理论上应该有无穷多解。这时候最小二乘法同样是失效的。

Lasso回归和岭回归最重要的区别是,岭回归中随着惩罚项增加时,所以项都会减小,但是仍然保持非0的状态,然而Lasso回归中,随着惩罚项的增加时,越来越多的参数会直接变为0,正是这个优势使得lasso回归容易用作特征的选择(对应参数非0项),因此lasso回归可以说能很好的保留那些具有重要意义的特征而去掉那些那些意义不大甚至毫无意义的特征(如果是超多维的稀疏矩阵,这难道不是在垃圾中寻找黄金的“掘金术”吗?),而岭回归永远不会认为一个特征是毫无意义的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值