《实用回归分析》 何晓群 第五章

《实用回归分析》 何晓群

第五章

  第五章介绍的自变量选择与逐步回归,下面以课后习题的5.10,介绍这两种方法在R语言中的实现和分析。
数据集1968-1983年美国与电话线制作有关的数据如下:
在这里插入图片描述
其中:
x 1 — — 年 份 x_1——年份 x1
x 2 — — 国 民 生 产 总 值 ( 单 位 : 10 亿 美 元 ) x_2——国民生产总值(单位:10亿美元) x210亿
x 3 — — 新 房 动 工 数 ( 单 位 : 1000 栋 ) x_3——新房动工数(单位:1000栋) x31000
x 4 — — 失 业 率 ( % ) x_4——失业率(\%) x4%
x 5 — — 滞 后 六 个 月 的 利 息 ( % ) x_5——滞后六个月的利息(\%) x5%
x 2 — — 用 户 用 线 增 量 ( % ) x_2——用户用线增量(\%) x2线%
y — — 年 电 话 线 销 售 量 ( 百 万 尺 双 线 ) y——年电话线销售量(百万尺双线) y线线

5.10

  1. 建立y对 x 2 ∼ x 6 x_2\sim x_6 x2x6的线性回归方程。

代码如下:

rm(list = ls())
setwd("C:/Users/Administrator/Desktop")
data5.6 <- read.csv("5-6.csv")
fit1 <- lm(y~x2+x3+x4+x5+x6, data = data5.6)
summary(fit1)

  得到拟合方程 y ^ = 5922.83 + 4.86 x 2 + 2.37 x 3 − 817.90 x 4 + 14.54 x 5 − 846.87 x 6 \hat y=5922.83+4.86x_2+2.37x_3-817.90x_4+14.54x_5-846.87x_6 y^=5922.83+4.86x2+2.37x3817.90x4+14.54x5846.87x6从输出的结果来看, x 4 , x 5 , x 6 x_4,x_5,x_6 x4,x5,x6对应的参数估计值 β ^ 4 , β ^ 5 , β ^ 6 \hat\beta_4,\hat\beta_5,\hat\beta_6 β^4,β^5,β^6的方程都非常大,并且 x 2 x_2 x2的P值达到了0.08109, x 5 x_5 x5的P值更是达到了0.923,在置信度 1 − α = 0.95 1-\alpha=0.95 1α=0.95的要求下,均未通过检验。可以认为该模型的设计矩阵存在多重共线性,而引起自相关或异方差,需要对模型进行进一步处理。

  1. 用后退法选择自变量。

代码如下:

fit2 <- step(fit1, direction="backward")
summary(fit2)

  从输出的结果来看,在第一步使用后退法时, X 5 X_5 X5 A I C = 208.55 AIC=208.55 AIC=208.55是变量中最小的,由AIC准则,第一步应剔除 x 5 x_5 x5。剔除变量后进行的第二步后退法中,所有变量的AIC值均大于不剔除时的AIC值,故而在此时剔除结束。经过向后剔除法得到拟合方程为: y ^ = 5922.83 + 5.07 x 2 + 2.31 x 3 − 824.926 x 4 − 862.70 x 6 \hat y=5922.83+5.07x_2+2.31x_3-824.926x_4-862.70x_6 y^=5922.83+5.07x2+2.31x3824.926x4862.70x6从结果上看此时 β ^ 4 , β ^ 6 \hat\beta_4,\hat\beta_6 β^4,β^6的方程有所减小,所有变量的P值,均在置信度 1 − α = 0.95 1-\alpha=0.95 1α=0.95下显著。方程最终仅剔除 x 5 x_5 x5 x 5 x_5 x5的P值最大是相符的。从实际意义上看,“滞后6个月的最惠利率”可能已经在其影响因子中有所体现,比如其可能与“用户用线增量”是有关的,因为在现实中,最惠利率的影响是具有滞后性的,利率越高,人们用线的可能越大。用剩余影响因子来解释“年电话线销量”也是合理的

  1. 用逐步回归法选择自变量

代码如下:

fit3=step(fit1,direction="both") 
summary(fit3)

  从输出的结果来看,逐步回归法经过两步确定了模型,由AIC准则仅剔除了 x 5 x_5 x5。其结果与后退法是一致的。

  1. 根据以上计算结果分析后退法与逐步回归法的差异

  以上两种方法在R语言中以step()函数体现,均使用AIC准则作为选择变量的标准,即剔除AIC值最小的变量。虽然这里结果是一致的,但是从处理方式来看,逐步回归法更能保证结果的优良性。后退法无法解决剔除变量不能再将其选入,但是不能保证在剔除变量后剩余变量一定比包含这个变量优良,而逐步回归法则解决了这个问题。

  • 6
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值