【多重共线性_影响&识别】

在这里插入图片描述
这么可爱的你,就关注我一下吧~

1、定义

在回归模型中,如果两个或两个以上自变量之间存在相关性,这种自变量之间的相关性,就叫做多重共线性。多重共线性普遍存在,适度的多重共线性可以不做处理。

当自变量之间高度相关(相关系数在0.7以上)时,将很难判定每一个单独的自变量对因变量的影响程度,这时候我们就需要做相应处理了。

2、影响

  • 系数不准确,很难判断单独的自变量对因变量的影响,影响模型的可解释性;
  • 系数的正负方向不准确,本应该为正值的出现负值或者相反;
  • 系数不稳定,样本的微小扰动就会导致参数变化较大;
  • 变量的显著性检验失去意义,可能会将重要的解释变量排除在外;

这里我们举个例子,让大家更直观的了解多重共线性的影响:

import numpy as np
from pandas import DataFrame as df
import statsmodels.api as sm
​
e = np.random.normal(size=100)# 我们先给定两个x变量,以及y值
x = df(np.linspace(0,100,100),columns=['x1'])
x['x2'] <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值