什么是岭回归?

问题引出:

当使用最小二乘法解决一下线性回归:

假设:已知x1,x2与y的关系服从线性回归模型:
y=10+2x1+3x2+c
当x1和x2存在线性相关性时,使用最小二乘法来预测回归模型,就变得困难起来,因此物品们必须使用逐步回归。也就是先估计x1,或者x2。这就引出了岭回归


学习内容:

1、 岭回归系数 2、 3、 4、

岭回归系数:

当参数小于特征值时,参数矩阵不满秩,使用最小二乘法来预测回归时,其中一个重要的条件就是满秩,因此最小二乘法不能够使用,从而引出了岭回归参数。 ![岭回归估计](https://img-blog.csdnimg.cn/ba4e6e90d71c43a5a6eecefc1828788e.png) 当k等于0时,β是最小二乘系数估计,否则β是岭回归估计系数。

岭回归性质:

性质1、 β(k)是回归参数的β的有偏估计。同时有偏性是岭回归的一个重要性质。

性质2、在认为岭参数k是与y无关的常数时,在这里插入图片描述
β是最小二乘估计β的一个线性变换,也是y的线性参数。
性质3、当k趋向于无穷大时,β的值趋向于0,因此k不能够取太大。
性质4、存在一个k使得均方误差小于最小二乘误差。


岭迹法

零激发选择k值的一般原则是:

  1. 各回归系数的岭估计基本稳定。
  2. 用最小二乘法估计时符号不合理的回归系数,其岭估计的符号变得合理。
  3. 回归系数没有不合乎经济意义的绝对值。
  4. 残差平方和增大的不多。(k是人为加入的偏差值,但是如果K取的过大,尽管会比最小二乘法偏差小,但是也是好不了那里去的。)

方差扩大因子法

VIF(variance inflation factor)方差膨大系数,>10时就会出现多重共线性。
CI条件数,当CI>30时,就有严重的多重共线性。
因此,岭回归就是消除多重共线问题,降低VIF,然后降低CI指标就可以解决多重共线问题。(计算量较大,因此很少采用)。


用岭回归选择变量原则

  1. 剔除掉标准化岭回归系数比较稳定且绝对值很小的变量。
  2. 随着k的增大,回归系数不稳定,且趋于0的自变量可以剔除。
  3. 去掉变量可以使得回归效果变好,就去除那些变量。

最后:

理论总结还有很多不足,希望您能不吝补充!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

求索永无止境

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值