多元统计分析最短距离法_多元回归分析与R

最新推荐文章于 2022-07-28 07:30:56 发布

旁间拓式

最新推荐文章于 2022-07-28 07:30:56 发布

阅读量1k

点赞数 1

文章标签：多元统计分析最短距离法

本文链接：https://blog.csdn.net/weixin_35223575/article/details/112197001

版权

1.导论

（1）模型和数据的关系

假设我们有一个因变量

和自变量

.收集样本容量为

的数据如下：

很自然地问

和

的关系是什么？即若

，那么函数

是什么？如何确定

？多元回归分析就研究什么情况下

是一个线性函数，如何由数据确定线性函数的统计方法。

（2）多元回归分析

多元统计分析主要研究一个变量（因变量）和多个变量（自变量）之间是否有线性关系，如果有，那么如何由数据来估计这种关系的一种统计方法，是一元线性回归的扩展。在学习的时候，要弄清楚多元回归分析和一元回归分析在哪些地方是相同的，哪些是多元回归下才有的东西。下面我们主要介绍多元回归模型的定义，如何由数据对多元回归模型的参数进行估计，如何对参数进行检验，如何对检验因变量和自变量之间存在线性关系，如何选取和因变量存在显著线性关系的自变量，如何由估计的模型进行预测等。

2.多元统计分析模型

因变量

与自变量

之间的关系为

其中

称为随机误差，且满足

称为回归系数。

如何理解这个模型？

若视
为随机向量，则假设

相互独立且在

的条件下，

,从而

若视
为向量，则在

条件下，

，从而

.

在下文中我们假设

为向量。

收集样本容量为

的数据如下：

则

,其中随机误差

是不可观测的。

3. 多元回归模型的矩阵表示

令

那么

模型假设：

;
;
进一步地，
.

4.线性关系的诊断

如何确定

与

之间是线性关系呢？若

时，可以用散点图和相关系数法给出初步的鉴别；若

时，散点图法就失效了，但是相关系数法还是很有用的，可以通过计算

与

之间的相关系数来初步判定是否存在线性关系。如果

和

之间存在显著地线性关系，则可以考虑用多元线性回归来对数据建模。

5.参数估计：最小二乘估计

其中,||.||为n维向量的范数,即长度。由数学分析或者线性代数的相关知识可得

称为参数

的最小二乘估计。

6.Y的拟合值,残差,随机误差方差的估计

残差

,那么残差向量为

随机误差

方差的估计

7.回归方程显著性检验

前面我们讲过，通过相关系数来鉴别

和

之间是否存在线性关系。下面通过

检验来说明

和

之间是否存在线性关系。

和

存在线性关系可表述为

不全为0。因此对是否有线性关系的检验可表述为以下统计假设

检验统计量为

其中

在

成立的条件下，

8.回归系数的显著性检验

虽然Y与某个自变量有显著的线性关系，由于该自变量和其它自变量有显著的线性关系(多重共线性)，在多元回归建模中也许Y与该变量的线性关系并不显著，因此我们需要考虑是否把该变量从模型中剔除。下面我们给出回归系数的t检验。

检验统计量为

其中

的对角线上第

个元素，

若

成立，则

。

9.变量的选择

我们在对

和

的关系建模时，并不需要把所有自变量都选入模型。有些自变量对因变量线性影响比较小，因此需要对自变量进行选择，挑选那些对因变量影响显著的变量。我们纪要挑选那些对Y影响比较显著的自变量，尽可能地使得模型越简单越好，也要使得模型拟合数据的效果要好。因此需要有一个合理的标准，根据这个标准来评判所建的模型是否更优？

信息准则即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则，它可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

值越小，说明模型越简单并且拟合数据越好。

10.常见变量选择的方法

（1）一切子回归法

对所有自变量的子集关于

做回归建模，找到最小的

所对应的模型。假设自变量有个

，这样就需要建立

个模型，然后选出最小AIC所对应的模型。现在在

比较大时，该方法是不适合的。

（2）前进法

从一个变量开始，逐步增加自变量，直至变量增加后

前后没有显著性地变化。

（3）后退法

首先考虑所有变量，逐步减少变量，直至变量减少后

前后没有显著性地变化。

（4）逐步回归法

把前进法和后退法结合起来的一种变量选择的方法。

在实际应用，逐步回归法是经常使用的变量选择的方法。下面我们将结合实例来说明逐步回归法。

11.回归预测

回归预测分别为点预测和区间预测。点预测就是对因变量均值的预测。点预测很简单，就是把自变量的值直接带入估计的回归方程，便可得到因变量均值的预测估计。

令

,那么

的预测值为

下面我们具体给出区间预测.区间预测分为均值置信区间的估计和点预测区间的估计.

（1）均值置信区间

给定

和显著性水平

，对

的

置信区间估计为

，其中

（2）点预测区间

给定

，

是一个随机变量。给定显著性水平

的

预测区间为

,其中

12. 案例

根据下面数据回答下面问题：

（1）建立

关于

回归方程，并对回归方程和回归系数进行显著性检验。

（2）采用逐步回归法建立

关于

线性回归方程，并对回归方程和回归系数进行显著性检验。

（3）给定

，根据逐步回归建立的线性回归方程，给出

的预测值以及

的95%的置信区间和

的95%的预测区间。

解：（1）R代码

data<-read.table("clipboard",header=T) #将数据读入到data中
lma<-lm(y~x1+x2+x3+x4,data=data)  
#建立y关于x1、x2、x3和x4的线性回归方程,数据为data
summary(lma)   #模型汇总,给出模型回归系数的估计和显著性检验等

R运行结果：

------------------

Call:

lm(formula = y ~ x1 + x2 + x3 + x4, data = data)

Residuals:

Min 1Q Median 3Q Max

-12924.2 -4588.1 -269.6 1756.2 25215.7

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 48386.0620 11237.2882 4.306 0.000155 ***

x1 1.6831 0.1302 12.929 5.01e-14 ***

x2 -34.5520 130.2602 -0.265 0.792570

x3 -13.0004 13.7882 -0.943 0.353043

x4 808.3223 547.8017 1.476 0.150144

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7858 on 31 degrees of freedom

Multiple R-squared: 0.919, Adjusted R-squared: 0.9086

F-statistic: 87.95 on 4 and 31 DF, p-value: < 2.2e-16

----------------------------

结果分析：

(1)

回归方程

关于

回归方程:

F检验：F值=87.95 p值<2.2x10-16<0.01,因此

对y非常显著的线性影响。

回归系数

的t检验：

变量 X1 X2 X3 X4

t值 12.929 -0.265 -0.943 1.476

p值 5.01x10-14 0.792570 0.353043 0.150144

若显著性水平为0.05，那么从上面可知只有的

系数显著不为0。

(2)

R代码：

>lm.step<-step(lma,direction="both") #用“一切子集回归法”来进行逐步回归

R运行结果：

---------------------

Start: AIC=650.41

y ~ x1 + x2 + x3 + x4

Df Sum of Sq RSS AIC

- x2 1 4.3448e+06 1.9186e+09 648.49

- x3 1 5.4896e+07 1.9692e+09 649.43

<none> 1.9143e+09 650.41

- x4 1 1.3445e+08 2.0487e+09 650.85

- x1 1 1.0323e+10 1.2237e+10 715.19

Step: AIC=648.49

y ~ x1 + x3 + x4

Df Sum of Sq RSS AIC

- x3 1 6.2078e+07 1.9807e+09 647.64

<none> 1.9186e+09 648.49

- x4 1 1.3011e+08 2.0487e+09 648.85

+ x2 1 4.3448e+06 1.9143e+09 650.41

- x1 1 1.0341e+10 1.2259e+10 713.26

Step: AIC=647.64

y ~ x1 + x4

Df Sum of Sq RSS AIC

<none> 1.9807e+09 647.64

+ x3 1 6.2078e+07 1.9186e+09 648.49

+ x2 1 1.1527e+07 1.9692e+09 649.43

- x4 1 2.9640e+08 2.2771e+09 650.66

- x1 1 1.1654e+10 1.3635e+10 715.09

------------------------

利用逐步回归得到最优回归模型，即

关于

回归方程。

>summary(lm.step)

R运行结果：

----------------------

Call:

lm(formula = y ~ x1 + x4, data = data)

Residuals:

Min 1Q Median 3Q Max

-13632 -4759 -615 1761 25076

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 42097.165 5265.218 7.995 3.18e-09 ***

x1 1.631 0.117 13.934 2.22e-15 ***

x4 1039.260 467.671 2.222 0.0332 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7747 on 33 degrees of freedom

Multiple R-squared: 0.9162, Adjusted R-squared: 0.9111

F-statistic: 180.4 on 2 and 33 DF, p-value: < 2.2e-16

---------------------------------------

结果分析

关于

回归方程:

F检验： F值=180.4 p值<2.2x10-16<0.01,因此x1, x4对y非常显著的线性影响。

回归系数t检验：

变量 X1 X4

t值 13.934 1.476

p值

0.0332

若显著性水平为0.05，那么从上面可值x1，x2的系数都显著不为0。

（3）

>preds<-data.frame(x1=20000,x4=20) #给定解释变量x1和x4的值>predict(lm.step,newdata=preds,interval="c",level=0.95)

#均值估计和均值的95%置信区间

R运行结果

－－－－－－－

fit lwr upr

1 95493.09 88348.34 102637.8

－－－－－－－－－

均值估计值为95493.09 ；

均值95%的置信区间为［88348.34，102637.8］。

>predict(lm.step,newdata=preds,interval="prediction",level=0.95)

＃预测与预测区间

R运行结果

－－－－－－－－－－

fit lwr upr

1 95493.09 78187.28 112798.9

－－－－－－－－－－

点预测值为95493.09

95%预测区间为［78187.28，112798.9］

旁间拓式

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多元统计分析最短距离法_多元回归分析与R

1.导论（1）模型和数据的关系假设我们有一个因变量和自变量 .收集样本容量为的数据如下：很自然地问和的关系是什么？即若，那么函数是什么？如何确定？多元回归分析就研究什么情况下是一个线性函数，如何由数据确定线性函数的统计方法。（2）多元回归分析多元统计分析主要研究一个变量（因变量）和多个变量（自变量）之间是否有线性关系，如果有，那么如何由数据来估计这种关系的一...
复制链接

扫一扫