一、导入数据
由于多元线性回归模型利用Stata处理起来非常方便,故本题使用stata软件进行多元线性回归模型的求解,将excel数据导入stata中,如图
注意:一定要将第一行作为变量名勾选上
二、数据的描述性统计
1、定量数据
什么是定量数据,什么是定性数据,这里引入另一博主写的,地址https://blog.csdn.net/qq_43709590/article/details/113902722
简单来说,定性数据就可以理解为男女,是否,成功与不成功等,定量数据则为具体的数值,如商品的数量为20,房价为10000/m2
对于定量数据,进行描述性统计的stata代码为:
sum 变量1 变量2 变量3 ... 变量n
效果如图
三、stata回归的语句
reg y x1 x2 ... xk
这里默认使用的OLS:普通最小二乘估计法),效果如图
可以看到,拟合优度为0.7408,但调整后的拟合优度为0.6327,且各自变量的p值均大于0.05,但总体p值却小于0.05,故我们认为存在多重共线性的影响,故我们进行多重共线性检验
estat vif
这是检验多重共线性的代码,只需一行,如果vif值大于10,则存在多重共线性影响,检验结果如下
多重共线性的解决方法
如果发现存在多重共线性,可以采取以下处理方法。
(1)
如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则
通常可以 不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多
重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效
应仍可以较准确地估计。
(2)
如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那
么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著
;
如果没有
多重共线性,则只会更加显著。
(3)
如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导
致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对
模型设定进行修改。
通俗来讲,则是需要使用向后逐步回归,代码如下
stepwise reg y x1 x2 x3 ...xn, r b pr(0.05)
效果如下:
可以看到,农药费和灌溉费对单产的影响最大,Beta值只关心绝对值,绝对值越大,说明影响越大,针对本题,可以理解为灌溉费对单产的影响最大,其中灌溉费每增加一元,单产则会增加1.110757。