回归 - 最小二乘,岭回归,lasso

1. 岭回归

岭回归,又称脊回归、吉洪诺夫正则化(Tikhonov regularization),是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法


适定问题是指定解满足下面三个要求的问题:① 解是存在的;② 解是唯一的;③ 解连续依赖于定解条件,即解是稳定的。这三个要求中,只要有一个不满足,则称之为不适定问题。

  岭回归是对最小二乘估计的一个补充,最小二乘估计法是无偏估计,而岭回归放弃了无偏估计,以损失部分信息,降低精度为代价来更好的拟合数据,常用在“病态数据”。比如,对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”
  对于一个适定问题, X X 通常是列满秩的,采用最小二乘法,(通常样本数量n要大于特征数量p,才有唯一解)我们最后可以得到求解公式最小二乘法求解 其中,X 通常是列满秩的

   当 X X 不是列满秩的时候,或者某些列之间的线性相关比较大时,XTX的行列式接近于0,即 XTX X T X 接近于奇异,上述问题变为一个不适定问题,此时,计算 (XTX)1 ( X T X ) − 1 时误差会很大,传统的最小二乘法缺乏稳定性与可靠性。
   转化为适定问题:为损失函数加上一个正则项,得岭回归的损失函数为 L=12Xθy2+12Γθ2 L = 1 2 ‖ X θ − y ‖ 2 + 1 2 ‖ Γ θ ‖ 2 θ θ 求导,定义 Γ=αI Γ = α I , 可得 θ(α)=(XTX+αI)1XTy θ ( α ) = ( X T X + α I ) − 1 X T y , 其中 I I 是单位矩阵,Γθ2可以看作是特征的方差,即各个特征的权的总的平衡程度

   随着 α α 的增大, θ(α) θ ( α ) 各元素 θ(α)i θ ( α ) i 的绝对值均趋于不断变小,它们相对于正确值 θi θ i 的偏差也越来越大。 α α 趋于无穷大时, θ(α) θ ( α ) 趋于0。其中, θ(α) θ ( α ) α α 的改变而变化的轨迹,就称为岭迹。实际计算中可选非常多的 α α 值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定 α α 值了。

详细的图示见参考链接

refer:
岭回归与最小二乘估计的区别
岭回归-简书

2. lasso

损失函数为 L=12Xθy2+λni=0|wi| L = 1 2 ‖ X θ − y ‖ 2 + λ ∑ i = 0 n | w i |
与岭回归的区别就在于正则项不同,lasso更容易产生解为0的情况,可以起到筛选变量的目的

refer:
岭回归,lasso 回归

3. 偏差和方差

偏差bais:误差,数据的准确性,分为系统误差和随机误差(只能尽量减少,不能避免),在线性回归中常用b来表示,
方差 variance: 预测出来的数据的分散程度
残差:观测值与真实值之间的差距,衡量的是预测的准确性。与数据本身的分布特性以及回归方程的选择有关。 yy^ y − y ^
残差平方和: residual sum of squares WYY^2 W ‖ Y − Y ^ ‖ 2


refer: 残差 方差 离差

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值