《实用回归分析》 何晓群
第五章
第五章介绍的自变量选择与逐步回归,下面以课后习题的5.10,介绍这两种方法在R语言中的实现和分析。
数据集1968-1983年美国与电话线制作有关的数据如下:
其中:
x
1
—
—
年
份
x_1——年份
x1——年份
x
2
—
—
国
民
生
产
总
值
(
单
位
:
10
亿
美
元
)
x_2——国民生产总值(单位:10亿美元)
x2——国民生产总值(单位:10亿美元)
x
3
—
—
新
房
动
工
数
(
单
位
:
1000
栋
)
x_3——新房动工数(单位:1000栋)
x3——新房动工数(单位:1000栋)
x
4
—
—
失
业
率
(
%
)
x_4——失业率(\%)
x4——失业率(%)
x
5
—
—
滞
后
六
个
月
的
利
息
(
%
)
x_5——滞后六个月的利息(\%)
x5——滞后六个月的利息(%)
x
2
—
—
用
户
用
线
增
量
(
%
)
x_2——用户用线增量(\%)
x2——用户用线增量(%)
y
—
—
年
电
话
线
销
售
量
(
百
万
尺
双
线
)
y——年电话线销售量(百万尺双线)
y——年电话线销售量(百万尺双线)
5.10
- 建立y对 x 2 ∼ x 6 x_2\sim x_6 x2∼x6的线性回归方程。
代码如下:
rm(list = ls())
setwd("C:/Users/Administrator/Desktop")
data5.6 <- read.csv("5-6.csv")
fit1 <- lm(y~x2+x3+x4+x5+x6, data = data5.6)
summary(fit1)
得到拟合方程 y ^ = 5922.83 + 4.86 x 2 + 2.37 x 3 − 817.90 x 4 + 14.54 x 5 − 846.87 x 6 \hat y=5922.83+4.86x_2+2.37x_3-817.90x_4+14.54x_5-846.87x_6 y^=5922.83+4.86x2+2.37x3−817.90x4+14.54x5−846.87x6从输出的结果来看, x 4 , x 5 , x 6 x_4,x_5,x_6 x4,x5,x6对应的参数估计值 β ^ 4 , β ^ 5 , β ^ 6 \hat\beta_4,\hat\beta_5,\hat\beta_6 β^4,β^5,β^6的方程都非常大,并且 x 2 x_2 x2的P值达到了0.08109, x 5 x_5 x5的P值更是达到了0.923,在置信度 1 − α = 0.95 1-\alpha=0.95 1−α=0.95的要求下,均未通过检验。可以认为该模型的设计矩阵存在多重共线性,而引起自相关或异方差,需要对模型进行进一步处理。
- 用后退法选择自变量。
代码如下:
fit2 <- step(fit1, direction="backward")
summary(fit2)
从输出的结果来看,在第一步使用后退法时, X 5 X_5 X5的 A I C = 208.55 AIC=208.55 AIC=208.55是变量中最小的,由AIC准则,第一步应剔除 x 5 x_5 x5。剔除变量后进行的第二步后退法中,所有变量的AIC值均大于不剔除时的AIC值,故而在此时剔除结束。经过向后剔除法得到拟合方程为: y ^ = 5922.83 + 5.07 x 2 + 2.31 x 3 − 824.926 x 4 − 862.70 x 6 \hat y=5922.83+5.07x_2+2.31x_3-824.926x_4-862.70x_6 y^=5922.83+5.07x2+2.31x3−824.926x4−862.70x6从结果上看此时 β ^ 4 , β ^ 6 \hat\beta_4,\hat\beta_6 β^4,β^6的方程有所减小,所有变量的P值,均在置信度 1 − α = 0.95 1-\alpha=0.95 1−α=0.95下显著。方程最终仅剔除 x 5 x_5 x5与 x 5 x_5 x5的P值最大是相符的。从实际意义上看,“滞后6个月的最惠利率”可能已经在其影响因子中有所体现,比如其可能与“用户用线增量”是有关的,因为在现实中,最惠利率的影响是具有滞后性的,利率越高,人们用线的可能越大。用剩余影响因子来解释“年电话线销量”也是合理的
- 用逐步回归法选择自变量
代码如下:
fit3=step(fit1,direction="both")
summary(fit3)
从输出的结果来看,逐步回归法经过两步确定了模型,由AIC准则仅剔除了 x 5 x_5 x5。其结果与后退法是一致的。
- 根据以上计算结果分析后退法与逐步回归法的差异
以上两种方法在R语言中以step()
函数体现,均使用AIC准则作为选择变量的标准,即剔除AIC值最小的变量。虽然这里结果是一致的,但是从处理方式来看,逐步回归法更能保证结果的优良性。后退法无法解决剔除变量不能再将其选入,但是不能保证在剔除变量后剩余变量一定比包含这个变量优良,而逐步回归法则解决了这个问题。