R语言数据探索和分析21-中国GDP及其影响因素多元线性回归分析

最新推荐文章于 2025-03-31 10:45:59 发布

statistican_ABin

最新推荐文章于 2025-03-31 10:45:59 发布

阅读量3.3k

点赞数 25

分类专栏： R语言数据分析案例文章标签： r语言回归开发语言

本文链接：https://blog.csdn.net/m0_62638421/article/details/139492825

版权

R语言数据分析案例专栏收录该内容

48 篇文章

订阅专栏

一、研究背景和意义

GDP 是宏观经济中最受关注的经济统计数字，目前我国国内生产总值年均增长率均明显高于同期美、日等发达经济体和巴西、俄罗斯、南非、印度等其他金砖国家，成为世界经济增长的主力军，GDP 的增长对一个国家有着十分重要的意义，它衡量一国在过去的一年里所创造的劳动成果，而研究它的影响因素不仅可以很好的了解 GDP 的经济内涵，而且还有利于我们根据这些因素对 GDP 影响大小来宏观经济的有效调控。

因此本文选取1990-2020年的GDP、税收等数据，数据为东方财务网爬取而得，其中包括人口（population），固定资产投资（fixed_investments），消费（consumption_level），净出口（total_export_import_volume），税收（tax），广义M2货币，物价指数（CPI），上述变量作为解释变量X，我国GDP作为被解释变量y，使用多元回归模型对我国GDP增长的因素进行分析。

二、文献综述

戚顺欣(2017年)选取2006年到2013年八年内的沈阳市GDP数据,利用多元回归模型,从多方面入手,选择多个影响因子分析沈阳市GDP增长的主要影响因素[1]。郭崇文(2016年)选取了三个因素,使用eviews软件对GDP与这些因素建立计量模型,并进行相关的统计检验和修正,对我国的经济发展提供借鉴意义[2]。卢金凤(2015年)通过搜集2010年、2013年重庆市能源消费量及地区生产总值,对单位生产总值能耗完成"十二五"规划进行检查和分析,总结完成目标的经验,以便为我国完成降耗目标起到借鉴作用[3]。.....

三、算法原理

....

四、实证分析

数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。

进行数据清理是因为现实世界的数据一般是不完整的、有噪声的、是不一致的。数据清理流程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。数据集成是指合并来自多个数据存储的数据。数据规约指可以用来得到数据集的规约表示，它小得多，但仍接近于保持原始数据的完整性。数据变换是指将数据格式转变，如将数据变为数值型、分类型数据等等。数据预处理，一方面是为了提高数据的质量，另一方面也是为了适应所做数据分析的软件或者方法。当然了，这四个大步骤在做数据预处理时未必都要执行，在许多情况下完成前两个步骤就可以对数据开始进行分析了。

本文选取1990-2020年的GDP、税收等数据，数据为东方财务网爬取而得，其中包括人口（population），固定资产投资（fixed_investments），消费（consumption_level），净出口（total_export_import_volume），税收（tax），广义M2货币，物价指数（CPI），上述变量作为解释变量X，我国GDP作为被解释变量y。首先进行数据展示，如图1所示。

数据和代码

代码和完整分析报告

具体描述性统计如下，其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等，如表2所示。

install.packages("openxlsx")
library(openxlsx)
# 文件名+sheet的序号
dataset<- read.xlsx("D:/例题/影响经济增长的因素(随机森林回归)/data.xlsx", sheet = 1)
#View(dataset)
dataset

summary(dataset)#####描述性统计分析

表 1 数据整体性描述

GDP		population		Fixed_investments		Consumption_level
min	18923	min	114333	min	4517	min	825
1st Qu	81310	1st Qu	124194	1st Qu	26674	1st Qu	3033
median	185999	median	130756	median	80994	median	5671
mean	333476	mean	129859	mean	171118	mean	9489
3rd Qu	562735	3rd Qu	136324	3rd Qu	305501	3rd Qu	14845
max	1008783	max	141212	max	527270	max	29210
Import_export_volume		tax		M2		CPI
min	5560	min	2822	min	15293	min	98.6
1st Qu	26908	1st Qu	8748	1st Qu	97747	1st Qu	101.5
median	116922	median	28779	median	298756	median	102.6
mean	133990	mean	55933	mean	619342	mean	103.4
3rd Qu	243773	3rd Qu	105572	3rd Qu	1040337	3rd Qu	104.3
max	322215	max	158000	max	2186796	max	117.1

首先画出1990-2020年GDP的走势情况：

画出特征变量的箱线图，看其分布形状

par(mfrow = c(2, 4)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$population, main = "population")
boxplot(dataset$fixed_investments, main = "fixed_investments")
boxplot(dataset$consumption_level, main = "consumption_level")
boxplot(dataset$total_export_import_volume, main = "total_export_import_volume")
boxplot(dataset$tax, main = "tax")
boxplot(dataset$M2, main = "M2")
boxplot(dataset$CPI, main = "CPI")

由图可得，7个特征变量均分布较好且异常值很少。再用ggpairs函数展示出变量间的相关性，以及从下图中的相关系数中也可得出其相关性。

随后算出各个变量直接的相关系数，如下

	GDP	人口	固定资产	消费	净出口	税收	M2	物价指数
GDP	1	0.897	0.997	0.998	0.962	0.995	0.997	-0.237
人口	0.897	1	0.886	0.891	0.941	0.902	0.873	-0.382
固定资产	0.997	0.886	1	0.993	0.955	0.996	0.995	-0.234
消费	0.998	0.891	0.993	1	0.947	0.987	0.999	-0.243
净出口	0.962	0.941	0.955	0.947	1	0.972	0.941	-0.267
税收	0.995	0.902	0.996	0.987	0.972	1	0.987	-0.239
M2	0.997	0.873	0.995	0.999	0.941	0.987	1	-0.235
物价指数	-0.237	-0.382	-0.234	-0.243	-0.237	-0.239	-0.235	1

接下来用GDP对最初的特征变量进行回归，结果如下：

通过观察发现，回归方程的系数的个别因子的p值过大了，导致有些系数没有通过显著性检验。所以接下来需要优化模型即通过t检验来进行逐步回归。

运用向后逐步回归，每次计算AIC值不断剔除一个变量，利用其余变量进行回归；接着剔除再剔除变量直到不能剔除为止，最后能达到更好的回归效果。最终对剔除结果再次进行回归可得，如下：

##逐步回归
fit1 <- step(fit,direction = "backward") 
summary(fit1)
fit2 <- lm(GDP~population+consumption_level+total_export_import_volume +tax ,data=dataset)
summary(fit2)
fit2_step <- step(fit2)
summary(fit2_step)

依次剔除了变量fixed_investments，M2，CPI。回归系数的显著性水平有所提高。此时。并且p值均较小，说明回归系数显著。向后删除的逐步回归过程结束后，最终只剩下4个自变量。这6个自变量已经足以用来解释该方程了。....

最终模型为：

接下来进行模型检验

#异方差检验
library(foreign)
library(zoo)
lmtest::bptest(fit2_step)

表 3 异方差检验结果

Stufentsized Breusch-Pagan test

Data: fit2_step

BP= 2.8563, df=4 , p_value=0.5822

由于p值>0.1可认为该模型不存在异方差性。

###自相关检验 DW
library(lmtest)
dwtest(fit2_step)
#因为dw>0.05所以不拒绝原假设，即认为是不相关的

表 4 自相关检验

Durbin-watson test

Data: fit2_step

DW= 0.98122, p_value=0.00002874

Alternative hyphothesis: true autocorrelation is greater than 0

DW检验的原假设为：误差不相关！

因为dw>0.05所以不拒绝原假设，即认为误差是不相关的。

五、结论与建议

本文对1990—2020年间GDP和各个行业增加值的数据进行描述性分析和多元线性分析，根据数据可以给出以下建议：在回归模型下，基于逐步回归合理删除变量之后，本文得到对GDP均有影响的4个变量的ｔ检验都非常的显著，它们是对GDP均有影响的4个变量。分别是人口、消费、净出口额、税收。故若希望GDP能稳定持续增长，则需要注重在这几个变量上.....

参考文献

戚顺欣,傅格格,张馨予.基于多元回归模型沈阳市GDP影响因素分析[J].商场现代化,2017(09):170-171.DOI:10.14013/j.cnki.scxdh.2017.09.096.
郭崇文.我国GDP的影响因素分析[J].商,2016(16):204.
卢金凤,彭莉莎.重庆市单位GDP能耗影响因素分析[J].合作经济与科技,2015(23):13-14.DOI:10.13665/j.cnki.hzjjykj.2015.23.005.

创作不易，希望大家多点赞关注！