岭回归

1. 线性回归及其局限性

  线性回归是我们比较熟悉的一类回归模型。已知自变量(可能不止一个变量,不妨设有 n 个变量,记为x)和因变量(也可能不止一个变量,不妨设有 k 个,记为y)的一些观测值,利用这些观测值我们可以建立两者之间的线性关系。
  通常采用最小二乘法来求解,也就是寻找 ξ 使得 J(ξ)=||Aξb||2 最小。  
  利用矩阵的知识,容易求得最小二乘解: ξ=(ATA)1ATb 。    (1)
  注意到矩阵 (ATA) 是一个半正定矩阵,但是极少数情况下,它的行列式还是可能为0,也就是存在不可逆的情况。这种情况下,我们就不能求得最小二乘解。也就是说, x y之间不存在最优的线性模型。在数学上,无论一个数多么小,只要不等于0,它就是非零的。因此,一个方阵,无论它的行列式多么小,只要不等于0,它就是可逆的。但是,程序求解的一般是数值解,当一个浮点数很接近0的时候,如大于0但是小于1e-309的double型数据会被认为是0。况且,当 det(ATA) 很小的时候,求得的解 ξ 不是数值稳定的。

2. 岭回归

  虽然没有最优解,但是我们可以有很多的近似解。岭回归就是其中一种求解近似解的方法。它的原理是牺牲解的无偏性来获得稳定的数值解。通常,引入一个正则参数来建立模型:
   J(ξ)=||Aξb||2+||Λξ||2     (2)
   Λ 通常称为吉洪诺夫矩阵。一般取 Λ=λI I 为单位矩阵。
  采用拉格朗日乘数法,可以求得(2)的解为:
  ξ=(ATA+λI)1ATb    (3)
  容易看出,原问题的条件数为 cond(A)=||A||||A1|| ,而添加正则项之后的问题的条件数为 cond(A+λI)=||A+λI||||(A+λI)1|| 。可见条件数确实会减小,因而数值稳定性得以提高。

3. 岭回归名称的由来

  岭回归又称脊回归,它的名字来源于模型的解与正则化参数 λ 之间的图像。下图是某个岭回归模型的解的5个分量随着 λ 变化而变化的趋势。这图像类似于山脊,因而得名。

  5条脊岭

参考文献:
1. Tikhonov regularization

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值