1.导论
(1)模型和数据的关系
假设我们有一个因变量
很自然地问
(2)多元回归分析
多元统计分析主要研究一个变量(因变量)和多个变量(自变量)之间是否有线性关系,如果有,那么如何由数据来估计这种关系的一种统计方法,是一元线性回归的扩展。在学习的时候,要弄清楚多元回归分析和一元回归分析在哪些地方是相同的,哪些是多元回归下才有的东西。下面我们主要介绍多元回归模型的定义,如何由数据对多元回归模型的参数进行估计,如何对参数进行检验,如何对检验因变量和自变量之间存在线性关系,如何选取和因变量存在显著线性关系的自变量,如何由估计的模型进行预测等。
2.多元统计分析模型
因变量
其中
如何理解这个模型?
- 若视
为随机向量 ,则 假设相互独立且在
的条件下,
- 若视
为向量,则在条件下,,从而
.
在下文中我们假设
收集样本容量为
则
3. 多元回归模型的矩阵表示
令
那么
模型假设:
-
;
-
;
- 进一步地,
.
4.线性关系的诊断
如何确定
5.参数估计:最小二乘估计
其中,||.||为n维向量的范数,即长度。由数学分析或者线性代数的相关知识可得
6.Y的拟合值,残差,随机误差方差的估计
残差
随机误差
7.回归方程显著性检验
前面我们讲过,通过相关系数来鉴别
检验统计量为
其中
在
8.回归系数的显著性检验
虽然Y与某个自变量有显著的线性关系,由于该自变量和其它自变量有显著的线性关系(多重共线性),在多元回归建模中也许Y与该变量的线性关系并不显著,因此我们需要考虑是否把该变量从模型中剔除。下面我们给出回归系数的t检验。
检验统计量为
其中
若
9.变量的选择
我们在对
10.常见变量选择的方法
(1)一切子回归法
对所有自变量的子集关于
(2)前进法
从一个变量开始,逐步增加自变量,直至变量增加后
(3)后退法
首先考虑所有变量,逐步减少变量,直至变量减少后
(4)逐步回归法
把前进法和后退法结合起来的一种变量选择的方法。
在实际应用,逐步回归法是经常使用的变量选择的方法。下面我们将结合实例来说明逐步回归法。
11.回归预测
回归预测分别为点预测和区间预测。点预测就是对因变量均值的预测。点预测很简单,就是把自变量的值直接带入估计的回归方程,便可得到因变量均值的预测估计。
令
下面我们具体给出区间预测.区间预测分为均值置信区间的估计和点预测区间的估计.
(1)均值置信区间
给定
(2)点预测区间
给定
12. 案例
根据下面数据回答下面问题:
(1)建立
(2)采用逐步回归法建立
(3)给定
解:(1)R代码
data<-read.table("clipboard",header=T) #将数据读入到data中
lma<-lm(y~x1+x2+x3+x4,data=data)
#建立y关于x1、x2、x3和x4的线性回归方程,数据为data
summary(lma) #模型汇总,给出模型回归系数的估计和显著性检验等
R运行结果:
------------------
Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = data)
Residuals:
Min 1Q Median 3Q Max
-12924.2 -4588.1 -269.6 1756.2 25215.7
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48386.0620 11237.2882 4.306 0.000155 ***
x1 1.6831 0.1302 12.929 5.01e-14 ***
x2 -34.5520 130.2602 -0.265 0.792570
x3 -13.0004 13.7882 -0.943 0.353043
x4 808.3223 547.8017 1.476 0.150144
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7858 on 31 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9086
F-statistic: 87.95 on 4 and 31 DF, p-value: < 2.2e-16
----------------------------
结果分析:
(1)
回归方程
F检验:F值=87.95 p值<2.2x10-16<0.01,因此
回归系数
变量 X1 X2 X3 X4
t值 12.929 -0.265 -0.943 1.476
p值 5.01x10-14 0.792570 0.353043 0.150144
若显著性水平为0.05,那么从上面可知只有的
(2)
R代码:
>lm.step<-step(lma,direction="both") #用“一切子集回归法”来进行逐步回归
R运行结果:
---------------------
Start: AIC=650.41
y ~ x1 + x2 + x3 + x4
Df Sum of Sq RSS AIC
- x2 1 4.3448e+06 1.9186e+09 648.49
- x3 1 5.4896e+07 1.9692e+09 649.43
<none> 1.9143e+09 650.41
- x4 1 1.3445e+08 2.0487e+09 650.85
- x1 1 1.0323e+10 1.2237e+10 715.19
Step: AIC=648.49
y ~ x1 + x3 + x4
Df Sum of Sq RSS AIC
- x3 1 6.2078e+07 1.9807e+09 647.64
<none> 1.9186e+09 648.49
- x4 1 1.3011e+08 2.0487e+09 648.85
+ x2 1 4.3448e+06 1.9143e+09 650.41
- x1 1 1.0341e+10 1.2259e+10 713.26
Step: AIC=647.64
y ~ x1 + x4
Df Sum of Sq RSS AIC
<none> 1.9807e+09 647.64
+ x3 1 6.2078e+07 1.9186e+09 648.49
+ x2 1 1.1527e+07 1.9692e+09 649.43
- x4 1 2.9640e+08 2.2771e+09 650.66
- x1 1 1.1654e+10 1.3635e+10 715.09
------------------------
利用逐步回归得到最优回归模型,即
>summary(lm.step)
R运行结果:
----------------------
Call:
lm(formula = y ~ x1 + x4, data = data)
Residuals:
Min 1Q Median 3Q Max
-13632 -4759 -615 1761 25076
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 42097.165 5265.218 7.995 3.18e-09 ***
x1 1.631 0.117 13.934 2.22e-15 ***
x4 1039.260 467.671 2.222 0.0332 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7747 on 33 degrees of freedom
Multiple R-squared: 0.9162, Adjusted R-squared: 0.9111
F-statistic: 180.4 on 2 and 33 DF, p-value: < 2.2e-16
---------------------------------------
结果分析
F检验: F值=180.4 p值<2.2x10-16<0.01,因此x1, x4对y非常显著的线性影响。
回归系数t检验:
变量 X1 X4
t值 13.934 1.476
p值
若显著性水平为0.05,那么从上面可值x1,x2的系数都显著不为0。
(3)
>preds<-data.frame(x1=20000,x4=20) #给定解释变量x1和x4的值>predict(lm.step,newdata=preds,interval="c",level=0.95)
#均值估计和均值的95%置信区间
R运行结果
-------
fit lwr upr
1 95493.09 88348.34 102637.8
---------
均值估计值为95493.09 ;
均值95%的置信区间为[88348.34,102637.8]。
>predict(lm.step,newdata=preds,interval="prediction",level=0.95)
#预测与预测区间
R运行结果
----------
fit lwr upr
1 95493.09 78187.28 112798.9
----------
点预测值为95493.09
95%预测区间为[78187.28,112798.9]