python计算方差膨胀因子_可决系数R^2和方差膨胀因子VIF

最新推荐文章于 2022-11-13 12:15:31 发布

weixin_39611308

最新推荐文章于 2022-11-13 12:15:31 发布

阅读量2k

点赞数 1

文章标签： python计算方差膨胀因子

本文介绍了如何利用Python计算方差膨胀因子(VIF)和可决系数(R^2)来检查特征间的多重共线性和模型解释能力。VIF通过回归分析检测特征间的线性相关性，而R^2衡量了回归方程对目标变量的解释程度。在示例中，通过对股票数据的分析，展示了如何应用VIF方法选择独立性更好的特征，以提高模型预测性能。

摘要由CSDN通过智能技术生成

然而很多时候，被筛选的特征在模型上线的预测效果并不理想，究其原因可能是由于特征筛选的偏差。

但还有一个显著的因素，就是选取特征之间之间可能存在高度的多重共线性，导致模型对测试集预测能力不佳。

为了在筛选特征之初就避免陷入这样的误区。介绍一种VIF(方差膨胀检验)方法，来对特征之间的线性相关关系进行检验，从而选取到独立性更好的特征，增强模型的解释能力。

1.可决系数R^2

1.1什么是可决系数

可决系数，亦称测定系数、决定系数、可决指数。

与复相关系数类似的，表示一个随机变量与多个随机变量关系的数字特征，用来反映回归模式说明因变量变化可靠程度的一个统计指标，一般用符号“R”表示，

可定义为已被模式中全部自变量说明的自变量的变差对自变量总变差的比值。

1.2总变异的分割

一个特定数值对于其平均值的偏离，称为离差，而一变量的各数值对于其平均值的偏离，称为变异。通常用离差平方和来描述变异程度。离差平方和又简称平方和(Sum of square)。在研究单变量的离中趋势描述时，我们已经接触了离差平方和的概念，样本标准差的定义公式中就直接使用了上述概念。平方和被相应的自由度去除，得到平均平方，简称为均方(Mean square)。样本标准差就是被自由度(n-1)所平均的x对于离差均方的算术平方根。下面我们将应用平方的概念去开发测度一个回归方程拟合协变关系效果的量数。

先结合图1分析一下在因变量y倚自变量x回归前提下y值的离差。

y值对其平均数的离差可以看作是由两部分合成的，一是y的回归拟合值对平均数的离差()，另一是y值对于拟合值的离差()。

前者呈线性变化，在时，=0，x取值越偏离，这一离差就越大，存在着这样的函数关系：

这一离差完全是由y倚x的回归关系决定的，因而称为已解释离差(Explained deviation)。

后者呈随机变化，与y倚x的回归关系无关，因而称为未解释离差(Unexplained deviation)。

总离差与已解释离差、未解释离差的关系写成公式是：

最低0.47元/天解锁文章

weixin_39611308

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。