一、研究背景和意义
GDP 是宏观经济中最受关注的经济统计数字,目前我国国内生产总值年均增长率均明显高于同期美、日等发达经济体和巴 西、俄罗斯、南非、印度等其他金砖国家,成为世界经济增长的主力军,GDP 的增长对一个国家有着十分重要的意义,它衡量一国在过去 的一年里所创造的劳动成果,而研究它的影响因素不仅可以很好的了解 GDP 的经济内涵,而且还有利于我们根据这些因素对 GDP 影响大小来宏观经济的有效调控。
因此本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y,使用多元回归模型对我国GDP增长的因素进行分析。
二、文献综述
戚顺欣(2017年)选取2006年到2013年八年内的沈阳市GDP数据,利用多元回归模型,从多方面入手,选择多个影响因子分析沈阳市GDP增长的主要影响因素[1]。郭崇文(2016年)选取了三个因素,使用eviews软件对GDP与这些因素建立计量模型,并进行相关的统计检验和修正,对我国的经济发展提供借鉴意义[2]。卢金凤(2015年)通过搜集2010年、2013年重庆市能源消费量及地区生产总值,对单位生产总值能耗完成"十二五"规划进行检查和分析,总结完成目标的经验,以便为我国完成降耗目标起到借鉴作用[3]。.....
三、算法原理
....
四、实证分析
数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。
进行数据清理是因为现实世界的数据一般是不完整的、有噪声的、是不一致的。数据清理流程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。数据集成是指合并来自多个数据存储的数据。数据规约指可以用来得到数据集的规约表示,它小得多,但仍接近于保持原始数据的完整性。数据变换是指将数据格式转变,如将数据变为数值型、分类型数据等等。数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。当然了,这四个大步骤在做数据预处理时未必都要执行,在许多情况下完成前两个步骤就可以对数据开始进行分析了。
本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y。首先进行数据展示,如图1所示。
具体描述性统计如下,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等,如表2所示。
install.packages("openxlsx")
library(openxlsx)
# 文件名+sheet的序号
dataset<- read.xlsx("D:/例题/影响经济增长的因素(随机森林回归)/data.xlsx", sheet = 1)
#View(dataset)
dataset
summary(dataset)#####描述性统计分析
表 1 数据整体性描述
GDP |
population |
Fixed_investments |
Consumption_level |
||||
min |
18923 |
min |
114333 |
min |
4517 |
min |
825 |
1st Qu |
81310 |
1st Qu |
124194 |
1st Qu |
26674 |
1st Qu |
3033 |
median |
185999 |