R语言之自变量选择与逐步回归xt5.9

第5章 自变量选择与逐步回归

5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.5。由定性分析知,所有自变量都与y有较强的相关性,分别用后退法和逐步回归法作自变量选元。
年份 农业增加值x1 工业增加值x2 建筑业增加值x3 人口数x4 社会消费总额x5 受灾面积x6 财政收入x7
1978 1018.4 1607 138.2 96259 2239.1 50760 1132.3
1979 1258.9 1769.7 143.8 97542 2619.4 39370 1146.4
1980 1359.4 1996.5 195.5 98705 2976.1 44530 1159.9
1981 1545.6 2048.4 207.1 100072 3309.1 39790 1175.8
1982 1761.6 2162.3 220.7 101654 3637.9 33130 1212.3
1983 1960.8 2375.6 270.6 103008 4020.5 34710 1367.0
1984 2295.5 2789.0 316.7 104357 4694.5 31890 1642.9
1985 2541.6 3448.7 417.9 105851 5773.0 44370 2004.8
1986 2763.9 3967.0 525.7 107507 6542.0 47140 2122.0
1987 3204.3 4585.8 665.8 109300 7451.2 42090 2199.4
1988 3831.0 5777.2 810.0 111026 9360.1 50870 2357.2
1989 4228.0 6484.0 794.0 112704 10556.5 46990 2664.9
1990 5017.0 6858.0 859.4 114333 11365.2 38470 2937.1
1991 5288.6 8087.1 1015.1 115823 13145.9 55470 3149.5
1992 5800.0 10284.5 1415.0 117171 15952.1 51330 3483.4
1993 6882.1 14143.8 2284.7 118517 20182.1 48830 4349.0
1994 9457.2 19359.6 3012.6 119850 26796.0 55040 5218.1
1995 11993.0 24718.3 3819.6 121121 33635 45821 6242.2
1996 13844.2 29082.6 4530.5 122389 40003.9 46989 7408.0
1997 14211.2 32412.1 4810.6 123626 43579.4 53429 8651.1
1998 14599.6 33429.8 5262.0 124810 46405.9 50145 9876.0

rm(list=ls())

# ---- 研究国家财政收入 ----
data5.9 <- read.csv('D:/rwork/应用回归/习题数据/表5-5.csv',head=TRUE)
data5.9 <- data5.9[,c(-1)] #读取所有变量x和y
names(data5.9) <- c('x1','x2','x3','x4','x5','x6','y') #重命名列名
cor(data5.9)



# 后退法 ----
lm5.9 <- lm(y~.,data=data5.9) #建立回归模型
lm5.9.back <- step(lm5.9,direction='backward') #建立全模型
summary(lm5.9.back)
# 得到y^=874.60021-0.61119x1-0.35305x2+0.63671x5



# 逐步回归法 ----
summary(step(lm5.9,direction='both'))
# 得到y^=874.60021-0.61119x1-0.35305x2+0.63671x5



# 二者结果相同,回归方程为y^=874.60021-0.61119x1-0.35305x2+0.63671x5,
#  但是回归系数的解释不合理。

后退法依次剔除x4,x3,x6,保留x1,x2,x5作为最终模型。而R软件step函数进行逐步回归,其结果与后退法一致。两个方法的最终模型是y^=874.60-0.61x1-0.35x2+0.64x5,但是回归系数的解释不合理。




参考课本:应用回归分析(R语言版),何晓群编著

  • 12
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值