多元统计分析最短距离法_多元回归分析与R

493b11041832566dc9ddcedf9b373c8f.png

1.导论

(1)模型和数据的关系

假设我们有一个因变量

和自变量
.收集样本容量为
的数据如下:

很自然地问

的关系是什么?即若
,那么函数
是什么?如何确定
?多元回归分析就研究什么情况下
是一个线性函数,如何由数据确定线性函数的统计方法。

(2)多元回归分析

多元统计分析主要研究一个变量(因变量)和多个变量(自变量)之间是否有线性关系,如果有,那么如何由数据来估计这种关系的一种统计方法,是一元线性回归的扩展。在学习的时候,要弄清楚多元回归分析和一元回归分析在哪些地方是相同的,哪些是多元回归下才有的东西。下面我们主要介绍多元回归模型的定义,如何由数据对多元回归模型的参数进行估计,如何对参数进行检验,如何对检验因变量和自变量之间存在线性关系,如何选取和因变量存在显著线性关系的自变量,如何由估计的模型进行预测等。

2.多元统计分析模型

因变量

与自变量
之间的关系为

其中

称为随机误差,且满足
,
,
称为回归系数。

如何理解这个模型?

  • 若视
    为随机向量 ,则 假设
    相互独立且在

的条件下,

,从而
.
  • 若视
    为向量,则在
    条件下,
    ,从而

    .

在下文中我们假设

为向量。

收集样本容量为

的数据如下:

,其中随机误差
是不可观测的。

3. 多元回归模型的矩阵表示

,
,
,

那么

.

模型假设:

  • ;
  • ;
  • 进一步地,
    .

4.线性关系的诊断

如何确定

之间是线性关系呢?若
时,可以用散点图和相关系数法给出初步的鉴别;若
时,散点图法就失效了,但是相关系数法还是很有用的,可以通过计算
之间的相关系数来初步判定是否存在线性关系。如果
之间存在显著地线性关系,则可以考虑用多元线性回归来对数据建模。

5.参数估计:最小二乘估计

其中,||.||为n维向量的范数,即长度。由数学分析或者线性代数的相关知识可得

称为参数
的最小二乘估计。

6.Y的拟合值,残差,随机误差方差的估计

残差

,那么残差向量为

随机误差

方差的估计

7.回归方程显著性检验

前面我们讲过,通过相关系数来鉴别

之间是否存在线性关系。下面通过
检验来说明
之间是否存在线性关系。
存在线性关系可表述为
不全为0。因此对是否有线性关系的检验可表述为以下统计假设

检验统计量为

其中

,
.

成立的条件下,
.

8.回归系数的显著性检验

虽然Y与某个自变量有显著的线性关系,由于该自变量和其它自变量有显著的线性关系(多重共线性),在多元回归建模中也许Y与该变量的线性关系并不显著,因此我们需要考虑是否把该变量从模型中剔除。下面我们给出回归系数的t检验。

检验统计量为

.

其中

的对角线上第
个元素,
.

成立,则

9.变量的选择

我们在对

的关系建模时,并不需要把所有自变量都选入模型。有些自变量对因变量线性影响比较小,因此需要对自变量进行选择,挑选那些对因变量影响显著的变量。我们纪要挑选那些对Y影响比较显著的自变量,尽可能地使得模型越简单越好,也要使得模型拟合数据的效果要好。因此需要有一个合理的标准,根据这个标准来评判所建的模型是否更优?

信息准则即Akaike information criterion,是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则,它可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

值越小,说明模型越简单并且拟合数据越好。

10.常见变量选择的方法

(1)一切子回归法

对所有自变量的子集关于

做回归建模,找到最小的
所对应的模型。假设自变量有个
,这样就需要建立
个模型,然后选出最小AIC所对应的模型。现在在
比较大时,该方法是不适合的。

(2)前进法

从一个变量开始,逐步增加自变量,直至变量增加后

前后没有显著性地变化。

(3)后退法

首先考虑所有变量,逐步减少变量,直至变量减少后

前后没有显著性地变化。

(4)逐步回归法

把前进法和后退法结合起来的一种变量选择的方法。

在实际应用,逐步回归法是经常使用的变量选择的方法。下面我们将结合实例来说明逐步回归法。

11.回归预测

回归预测分别为点预测和区间预测。点预测就是对因变量均值的预测。点预测很简单,就是把自变量的值直接带入估计的回归方程,便可得到因变量均值的预测估计。

,那么
的预测值为

下面我们具体给出区间预测.区间预测分为均值置信区间的估计和点预测区间的估计.

(1)均值置信区间

给定

和显著性水平
,对
置信区间估计为

,其中
.

(2)点预测区间

给定

是一个随机变量。给定显著性水平
预测区间为

,其中
.

12. 案例

根据下面数据回答下面问题:

7a722259c487ccd8a75124d91ca7812c.png

(1)建立

关于
回归方程,并对回归方程和回归系数进行显著性检验。

(2)采用逐步回归法建立

关于
线性回归方程,并对回归方程和回归系数进行显著性检验。

(3)给定

,根据逐步回归建立的线性回归方程,给出
的预测值以及
的95%的置信区间和
的95%的预测区间。

解:(1)R代码

data<-read.table("clipboard",header=T) #将数据读入到data中
lma<-lm(y~x1+x2+x3+x4,data=data)  
#建立y关于x1、x2、x3和x4的线性回归方程,数据为data
summary(lma)   #模型汇总,给出模型回归系数的估计和显著性检验等

R运行结果:

------------------

Call:

lm(formula = y ~ x1 + x2 + x3 + x4, data = data)

Residuals:

Min 1Q Median 3Q Max

-12924.2 -4588.1 -269.6 1756.2 25215.7

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 48386.0620 11237.2882 4.306 0.000155 ***

x1 1.6831 0.1302 12.929 5.01e-14 ***

x2 -34.5520 130.2602 -0.265 0.792570

x3 -13.0004 13.7882 -0.943 0.353043

x4 808.3223 547.8017 1.476 0.150144

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7858 on 31 degrees of freedom

Multiple R-squared: 0.919, Adjusted R-squared: 0.9086

F-statistic: 87.95 on 4 and 31 DF, p-value: < 2.2e-16

----------------------------

结果分析:

(1)

回归方程

关于
回归方程:

F检验:F值=87.95 p值<2.2x10-16<0.01,因此

对y非常显著的线性影响。

回归系数

的t检验:

变量 X1 X2 X3 X4

t值 12.929 -0.265 -0.943 1.476

p值 5.01x10-14 0.792570 0.353043 0.150144

若显著性水平为0.05,那么从上面可知只有的

系数显著不为0。

(2)

R代码:

>lm.step<-step(lma,direction="both") #用“一切子集回归法”来进行逐步回归

R运行结果:

---------------------

Start: AIC=650.41

y ~ x1 + x2 + x3 + x4

Df Sum of Sq RSS AIC

- x2 1 4.3448e+06 1.9186e+09 648.49

- x3 1 5.4896e+07 1.9692e+09 649.43

<none> 1.9143e+09 650.41

- x4 1 1.3445e+08 2.0487e+09 650.85

- x1 1 1.0323e+10 1.2237e+10 715.19

Step: AIC=648.49

y ~ x1 + x3 + x4

Df Sum of Sq RSS AIC

- x3 1 6.2078e+07 1.9807e+09 647.64

<none> 1.9186e+09 648.49

- x4 1 1.3011e+08 2.0487e+09 648.85

+ x2 1 4.3448e+06 1.9143e+09 650.41

- x1 1 1.0341e+10 1.2259e+10 713.26

Step: AIC=647.64

y ~ x1 + x4

Df Sum of Sq RSS AIC

<none> 1.9807e+09 647.64

+ x3 1 6.2078e+07 1.9186e+09 648.49

+ x2 1 1.1527e+07 1.9692e+09 649.43

- x4 1 2.9640e+08 2.2771e+09 650.66

- x1 1 1.1654e+10 1.3635e+10 715.09

------------------------

利用逐步回归得到最优回归模型,即

关于
回归方程。

>summary(lm.step)

R运行结果:

----------------------

Call:

lm(formula = y ~ x1 + x4, data = data)

Residuals:

Min 1Q Median 3Q Max

-13632 -4759 -615 1761 25076

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 42097.165 5265.218 7.995 3.18e-09 ***

x1 1.631 0.117 13.934 2.22e-15 ***

x4 1039.260 467.671 2.222 0.0332 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7747 on 33 degrees of freedom

Multiple R-squared: 0.9162, Adjusted R-squared: 0.9111

F-statistic: 180.4 on 2 and 33 DF, p-value: < 2.2e-16

---------------------------------------

结果分析

关于
回归方程:

F检验: F值=180.4 p值<2.2x10-16<0.01,因此x1, x4对y非常显著的线性影响。

回归系数t检验:

变量 X1 X4

t值 13.934 1.476

p值

0.0332

若显著性水平为0.05,那么从上面可值x1,x2的系数都显著不为0。

(3)

>preds<-data.frame(x1=20000,x4=20) #给定解释变量x1和x4的值>predict(lm.step,newdata=preds,interval="c",level=0.95)

#均值估计和均值的95%置信区间

R运行结果

-------

fit lwr upr

1 95493.09 88348.34 102637.8

---------

均值估计值为95493.09 ;

均值95%的置信区间为[88348.34,102637.8]。

>predict(lm.step,newdata=preds,interval="prediction",level=0.95)

#预测与预测区间

R运行结果

----------

fit lwr upr

1 95493.09 78187.28 112798.9

----------

点预测值为95493.09

95%预测区间为[78187.28,112798.9]

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值