应用回归分析(5):自变量的选择及逐步回归

PPT见:应用回归分析(5):自变量的选择及逐步回归资源-CSDN文库

5.1 自变量选择对估计和预测的影响

5.1.1 全模型和选模型概念

全回归:因变量一共有m个自变量,对所有的自变量建立回归模型称为全回归模型

选模型:从中挑选出p自变量个进行回归,注意:

5.1.2 误用模型产生的影响xua

(1)是全模型而误用了选模型产生的影响

【1】选模型回归系数的最小二乘估计是全模型相应参数的有偏估计

【2】选模型的预测是有偏的

【3】选模型的参数估计有较小的方差

【4】选模型的预测残差有较小的方差

【5】选模型的均方误差比全模型的小

5.2 所有子集回归

通过暴力找出所有的子集通过 指标进行选择,然后选择出最好的

5.2.1 关于自变量选择的几个准则

(1)SSE和R不行的原因

一般认为:残差平方和SSE最小的回归方程就是最好的,还用复相关系数R来衡量拟合程度的好坏。但是都有明显的不足

【1】残差平方和

当自变量增加时,残差平方和一定减小

证明参考:计量经济学第三章第3节多元线性回归模型的显著性检验 - 豆丁网 (docin.com)

​ 

​【2】复决定系数

复决定系数的公式:

(2)全新的准则

【1】自由度调整复决定系数达到最大

当变量增多时,残差平方和减少,R方增大,但是自由度n-p-1减小,因此可以使用自由度进行制衡

显然自由度调整复决定系数小于等于复决定系数

回归误差性方差\delta ^2的无偏估计为:

在前面证明过!!!

一般来说,当自变量个数从0开始增加时,\widehat{\delta ^2}先下降,而后稳定下来,当自变量个数增加到一定数量后,\widehat{\delta ^2}又开始增加。

【2】AIC和BIC准则

达到最小是最优!

【3】C_p统计量达到最小

选择使C_p最小的自变量子集,所对应的方程就是最有回归方程。

spss或者R语言操作:

spss:"分析"--“回归”--“线性”,可以得到调整后的R方

R:得到AIC和BIC的值

计算的式子有所变化,没有忽略无关项!

Data <- read.csv("eg5_1.csv",head=T)
n <- nrow(Data)
lm <- lm(y~x1,data=Data)
summary(lm)
AIC(lm)
BIC(lm)

5.3 逐步回归

当所有子集的个数很多时,用所有子集回归的方法太过冒进,不妥。

5.3.1 前进法

(1)思想:

变量由少到多,每次增加一个,直到没有可引入的变量为止

(2)明显的不足:

5.3.2 后退法

(1)思想:

先用全部m个变量建立一个回归方程,然后在这m个变量中选择不重要的变量,直到没有可以剔除的变量

(2)明显的不足:

5.3.3 前进法和后退法比较

注意:当自变量完全独立是,那么去相同的显著性水平时,前进法和后退法所建的回归方程是相同的!

5.3.4 逐步回归法

(1)思想:

基本思想:有进有出

具体做法:将变量一个一个引入,当引入一个自变量后,对已经选入的自变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,将其剔除。

注意!!:

引入自变量和剔除自变量的显著性水平不同,引入自变量要比提出自变量的显著性水平要小!!!

一般来说,我们会贯彻一个“严进宽出”的原则。也就是说引入变量的时候,显著性水平要“很高”,而剔除变量的话,就看它显著性水平是不是低于了一个“不是很高”的水平。直观想一下,如果  ,那就意味着,每一次引入的变量活不过第一轮就又被刷出去了……

注意:!!!!

有进有出的结果表示自变量之间有相关性,如果自变量之间完全不想关,则引入的不会剔除,剔除的不会引入,这时逐步回归法和前进法是相同的。

spss:

  • 17
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值