一、多重共线性及其危害
我有一组自变量:
它们满足下列关系:
那么我们称这四个变量间存在多重共线性。
这就意味着,一个变量可以被另外几个变量来解释,这就会带来两个后果
1、尽管系数估计的无偏性没有收到影响,但是不幸的是,有效性变差了,也就是说估计的随机误差的方差不再是最小的,t值有可能变小,甚至相反,影响显著性判断。
2、随着变量X的增多,F检验值会增大,但是系数β会发生改变。
那我们该如何识别多重共线性呢?
二、VIF法和相关系数法
(一)相关系数法
由定义可知,若存在多重共线性,那么两个变量间相关系数会很大(一般我们都采用0.5标准,若大于0.5,则认为存在多重共线性),所以有可能出现多重共线性,我们可以通过计算相关系数实现。
R语言代码如下:
#导入数据
library(readxl)
travel <- read_excel("D:/search/homework/DataScience/workdata/travel.xlsx")
#选取数据的数值型数据列
travels<-travel[,4:12]
#计算相关系数,方法选择pearson
cor(travels,