![2ed8ab04a0d54516485de2a114a531d0.png](https://i-blog.csdnimg.cn/blog_migrate/730aaf421ca9eff35fc65db00e58367f.png)
一、多重共线性及其危害
我有一组自变量:
![dd95193bb0b14241e48cee2114dc3f70.png](https://i-blog.csdnimg.cn/blog_migrate/5b2e83b986d8ee6e0402e65dd029727e.png)
它们满足下列关系:
![277ab048b6da00ed422890390136f63a.png](https://i-blog.csdnimg.cn/blog_migrate/f6fbb872432f2654e8737712b0537db1.png)
那么我们称这四个变量间存在多重共线性。
这就意味着,一个变量可以被另外几个变量来解释,这就会带来两个后果
1、尽管系数估计的无偏性没有收到影响,但是不幸的是,有效性变差了,也就是说估计的随机误差的方差不再是最小的,t值有可能变小,甚至相反,影响显著性判断。
2、随着变量X的增多,F检验值会增大,但是系数β会发生改变。
那我们该如何识别多重共线性呢?
二、VIF法和相关系数法
(一)相关系数法
由定义可知,若存在多重共线性,那么两个变量间相关系数会很大(一般我们都采用0.5标准,若大于0.5,则认为存在多重共线性),所以有可能出现多重共线性,我们可以通过计算相关系数实现。
R语言代码如下:
#导入数据
library(readxl)
travel <- read_excel("D:/search/homework/DataScience/workdata/travel.xlsx")
#选取数据的数值型数据列
travels<-travel[,4:12]
#计算相关系数,方法选择pearson
cor(travels, me