问题引出:
当使用最小二乘法解决一下线性回归:假设:已知x1,x2与y的关系服从线性回归模型:
y=10+2x1+3x2+c
当x1和x2存在线性相关性时,使用最小二乘法来预测回归模型,就变得困难起来,因此物品们必须使用逐步回归。也就是先估计x1,或者x2。这就引出了岭回归!
学习内容:
1、 岭回归系数 2、 3、 4、岭回归系数:
当参数小于特征值时,参数矩阵不满秩,使用最小二乘法来预测回归时,其中一个重要的条件就是满秩,因此最小二乘法不能够使用,从而引出了岭回归参数。 ![岭回归估计](https://img-blog.csdnimg.cn/ba4e6e90d71c43a5a6eecefc1828788e.png) 当k等于0时,β是最小二乘系数估计,否则β是岭回归估计系数。岭回归性质:
性质1、 β(k)是回归参数的β的有偏估计。同时有偏性是岭回归的一个重要性质。
性质2、在认为岭参数k是与y无关的常数时,
β是最小二乘估计β的一个线性变换,也是y的线性参数。
性质3、当k趋向于无穷大时,β的值趋向于0,因此k不能够取太大。
性质4、存在一个k使得均方误差小于最小二乘误差。
岭迹法
零激发选择k值的一般原则是:
- 各回归系数的岭估计基本稳定。
- 用最小二乘法估计时符号不合理的回归系数,其岭估计的符号变得合理。
- 回归系数没有不合乎经济意义的绝对值。
- 残差平方和增大的不多。(k是人为加入的偏差值,但是如果K取的过大,尽管会比最小二乘法偏差小,但是也是好不了那里去的。)
方差扩大因子法
VIF(variance inflation factor)方差膨大系数,>10时就会出现多重共线性。
CI条件数,当CI>30时,就有严重的多重共线性。
因此,岭回归就是消除多重共线问题,降低VIF,然后降低CI指标就可以解决多重共线问题。(计算量较大,因此很少采用)。
用岭回归选择变量原则
- 剔除掉标准化岭回归系数比较稳定且绝对值很小的变量。
- 随着k的增大,回归系数不稳定,且趋于0的自变量可以剔除。
- 去掉变量可以使得回归效果变好,就去除那些变量。
最后:
理论总结还有很多不足,希望您能不吝补充!