多元线性回归模型及其应用

系统简介

本文介绍了多元线性回归模型,其过程分为模型构建、模型参数估计、模型检验和模型预测等几个方面。通过对与我国物价指数CPI相关的几个因素建立初始多元线性回归模型,分析CPI的影响因素,之后对该模型进行各种统计检验,在模型检验中发现初始模型中有部分变量的系数不能通过检验,可能存在多重共线性的问题,最后采用逐步回归分析法来进行去除显著性不高的变量,并且建立新的模型,最终找出了影响CPI的关键要素是农业生产资料价格和人均GDP,通过最终确定的CPI与其影响因素之间的线性回归方程可以清晰地得到各个指标对CPI的影响大小,进而为我国控制CPI提供方向性的建议指导。
关键词 多元线性回归 CPI影响因素 逐步回归

引 言

在大学课程的学习中我们接触到了应用数理统计方法,比较常用的方法有方差分析、回归分析、聚类分析等,然而,多元统计分析[1]p64-65中的重要方法之一就是多元线性回归分析[2],在人文科学和自然科学的许多领域都有应用。多元线性回归模型是研究一个随机变量与两个或两个以上一般变量之间相依关系的模型,它的基本步骤大致分为模型的建立、模型求解、模型的检验与模型的预测。
我们对居民消费价格指数(CPI) [3]波动的理解是基于商品价格浮动的直观认识,但在现实生活中商品价格的变化也会受到各类商品的市场供求关系、产业发展、收入变化、人民生活水平以及经济发展水平等诸多因素的影响。为了能够进一步解释研究影响CPI的主要因素,通过翻阅相关文献可以看出,国内有关CPI影响因素的研究较多,为了分析辽宁省的CPI,刘茹玉选取了固定资产投资、CPI的构成、这几个指标作为自变量[4]p23-24;董荣花从生产者价格指数、实际产出、货币供应量这几个方面研究了与CPI的相干关系[5]p34-35;刘懿枞、李明洋、王虹博选取了货币和准货币出口总额作为相关指标,研究了这些指标对我国CPI的影响[6]。从分析上述研究文献可以发现,虽然研究指标选取范围很广,但是没有用不同方法地对我国CPI影响因素进行多元线性回归研究。因此,本文将用不同的回归方法来研究我国CPI的主要影响因素。
本文在此背景下,分析借鉴了前人的研究和经验,依据多元线性回归模型的构建,初步筛选了6项与CPI有关的宏观经济指标作为影响变量,并在多元线性回归分析中采用不同的回归方法进行比较分析,以此来构建CPI及其影响因素之间的线性回归方程,我们可以清晰地看到各个指标对CPI的影响,从而找出了影响CPI的关键要素是农业生产资料价格和人均GDP,进而为我国经济发展提供方向性的建议指导。

1.多元线性回归分析基本理论

一个被解释变量与多个解释变量形成的线性关系模型就是多元线性回归模型。
多元线性回归模型的一般形式
设随机被解释变量与一般解释变量线性回归模型的标准形式如下:

式中,是被解释变量的第个观测值;是第个解释变量的第个观测值;表示模型的回归系数;为随机误差项。
多元线性回归模型的基本假设
为了能够在统计学上很好地描述参数估计的特性,模型必须符合下面几个假设:

  1. 解释变量非随机或固定,且各之间不存在严格线性关系。
  2. 样本中获得的每个解释变量都具有差异性,并且每个的均约等于一个不等于零的常数。
  3. 期望为0的,相等并且没有序列相关性。
  4. 与之间没有关联。

  5. 1.3参数估计
    回归系数的估计
    在确定回归理论模型后,将基于收集的样本数据估算模型中的未知参数。回归系数和总体方差属于该模型的未知参数。目前应用最广泛的方法是普通最小二乘法,也就是经典的估计方法。
    求多元线性回归模型中的回归系数,最小二乘法是目前应用最广泛的估计方法,不过这个方法必须是基于模型的基本假定之上的,因为有一些因此方法而导致模型不符合基本假设,所以一些新的方法就被人们所提出来了,比如[7]p66-67等,但是这一切都基于普通最小二乘法这一估计方法。
    最小二乘法就是使残差平方和

取得最小值。因为是的非负二次式,所以最小值一定存在。依据数学分析的极值原理,应满足下述方程:

称为标准回归方程组,将代入式中整理得:

由此可求得的值。
样本方差的估计
多元线性回归模型中随机误差项的样本方差计算公式如下:

其中,为样本观测值的个数,为回归系数的个数,为残差平方和,为总体方差的无偏估计。又被称为回归估计的标准误差,越小说明回归方程的代表性越强。
1.4模型检验
回归方程被建立之后,还必须进行各类统计检验,回归方程的R2检验、回归方程的F检验、回归系数的t检验都包含在模型的检验之中。
回归方程的显著性检验
模型假设为:。
检验统计量:

是解释变量的个数,统计量服从自由度的分布。用统计软件会自动计算出检验统计量的观测值及相应的概率值,假如,则应拒绝原假定,认为回归系数不全为0,表明回归方程具有显著意义;若,则反之。
回归系数的显著性检验
模型假设为:。
构造检验统计量:

服从自由度为的分布。假如,则拒绝原假定,认为某一个回归系数不为0;若,则反之。
回归方程的拟合优度检验
在线性回归模型中,用判定系数表示拟合程度, 记为:

其中表示总离差平方和,表示回归平方和,
表示残差平方和。
为了避免由于添加自变量而导致高估。通常也采用调整过的多重判定系数来进行拟合优度检验,其中:

或的值越接近1,说明拟合度越高,相反或越接近0,拟合效果越差。
模型预测
如果回归模型顺利通过了前面的各种统计检验,那么还可以利用模型对被解释变量进行预测。在当期各解释变量的样本量被提供之后,则可以通过最优回归模型来求解解释变量。基本公式如下:

其中,是给定的在预测期的具体数值,为已经估计出来的样本回归系数,为给定时的预测值。
标准误差的计算方法如下:

在给定显著性水平之下的置信区间如下:

是显著性水平的分布双侧临界值。
自变量的筛选方法
在多元线性回归模型中,引入自变量的选择直接影响到模型的质量。在模型中,重要的自变量不能被忽略,而且还要避免太多变量引起的诸多负面影响,例如,一方面加大计算量,进而增加了误差,另一方面,还有可能会出现多重共线性的问题,因此我们要对变量进行筛选处理。利用SPSS软件[8]p27-29可以通过以下几种方法选择自变量进入回归方程:逐步回归法、向后剔除法和向前引入法。
向前引入法(Forward),它是一种只选不剔、自变量从无到有的筛选方法。首先,将每个自变量与因变量进行线性回归,并分析其相关性,将相关性最强或者P值最小的自变量放入回归模型中,接下来就是在此基础上,再检验剩余自变量与因变量之间的相关性,继续选择相关性最强或者P值最小的自变量进入模型中,并重复执行这个过程,直至模型外自变量的为止。
向后剔除法(Backward),它是一种只剔不选的自变量筛选方法。首先将自变量框中的所有自变量选入方程,之后将P值最大的自变量剔除,然后使用剩余的自变量建立新的回归方程,重复此过程,直到无法剔除方程中不显著的自变量。
逐步回归法(Stepwise),它是一种先选后剔、双向筛选的方法。这个方法首先用向前引入法的方法引入自变量,在每引入一个自变量之后,同时用向后剔除法的方法对自变量逐个检验并剔除不显著变量,重复这个过程,直到无法从模型外引入自变量,并且模型中也无法消除自变量。从逐步回归法的过程来看,这个方法是一种瞻前顾后的方法,每当将新的自变量引入模型时,都有必要考虑一下之前引入的自变量还是不是依然有统计学意义,这也是我们在筛选自变量的时候最经常用到的一种方法。

2.多元线性回归在CPI影响因素中的应用

数据筛选
指标选取
在本文中,我们选择居民消费价格指数作为因变量,以社会商品零售价格指数、农业生产资料价格指数、固定资产投资价格指数、工业生产者出厂价格指数、人均GDP指数和进出口总额指数作为自变量,这些数据都是定量变量,它们的符号和经济意义见下表:
表1变量的经济意义
变量 符号 经济意义
居民消费价格指数 居民消费水平
商品零售价格指数 商业发展水平
农业生产资料价格指数 农业发展水平
固定资产投资价格指数 固定资产支出水平
工业生产者出厂价格指数 工业发展水平
人均GDP指数 居民收入水平
进出口总额指数 贸易发展水平
数据收集
为了便于进行回归分析以及比较研究,本文基于《中国统计年鉴2019》[9],收集了自新世纪初以来2001至2018年各项经济指标的数据,对原始数据进行简单分析我们可以看出,作为因变量的我国居民消费价格指数呈现出逐年上升的趋势, 作为自变量的六个指标中,除了进出口总额和农业生产资料价格在2010年前后变化幅度较大以外,其他指标均呈现线性关系。商品零售价格、固定资产投资价格和工业生产者出厂价格增长缓慢,而人均GDP与进出口总额增长速度最快。
在这里插入图片描述

图1 各变量逐年变化折线图
2.2实证分析
建立模型
在建立回归方程之前,需要定量地分析变量之间是否相关,通过计算得到表2。
表2 Pearson相关系数

1.000000	0.984388	0.982046	0.829927	0.983893	0.959305	0.994933
0.984388	1.000000	0.980354	0.887818	0.946702	0.978622	0.971805
0.982046	0.980354	1.000000	0.901174	0.958695	0.970401	0.975451
0.829927	0.887818	0.901174	1.000000	0.752350	0.915245	0.800195
0.983893	0.946702	0.958695	0.752350	1.000000	0.924414	0.995211
0.959305	0.978622	0.970401	0.915245	0.924414	1.000000	0.950047
0.994933	0.971805	0.975451	0.800195	0.995211	0.950047	1.000000

从上述表2中,我们可以看出,每个指标变量的pearson相关系数基本都大于0.8,表明这些自变量和因变量的相关性很强[10]p31-34,适合与6个自变量做多元线性回归。
根据以上因变量和自变量 、、、、 的选择,建立多元线性回归模型:

其中为选取的影响因素经济指标,为相应的系数,表示随机误差,且服从期望为0,方差为的正态分布。
参数估计
在本文中,我们的统计分析工具是SPSS.22.0软件[11]p35-38,下面将我们收集到的各项数据输入到该软件中,设置默认的显著性水平为 0.05,得到如下结果:
表3 回归系数
模型 非标准化系数 标准系数 t 显著性
B 标准错误 贝塔
1 (常量) 281.360 67.532 4.166 .002
商品零售价格指数 .255 .255 .142 1.000 .339
农业生产资料价格指数 .111 .057 .191 1.966 .075
固定资产投资价格指数 -.039 .335 -.017 -.117 .909
工业生产者出厂价格指数 .026 .170 .012 .152 .882
人均GDP指数 .227 .041 .669 5.533 .000177
进出口总额指数 .006 .026 .014 .212 .836
根据表3可得初步的多元线性回归模型为:

模型检验

  1. 拟合优度检验。
    表4 拟合优度表
    模型 R R平方 调整后的R平方 标准估算的错误 Durbin-Watson(U)
    1 1.000a .999 .998 2.95352 1.484
    从表4的数据中可以看出,调整后的可决定系数为,两项数据接近1,表示该模型的拟合程度非常好。
  2. 回归方程的检验。
    在检验时,首先提出假设
    表5 方差分析
    模型 平方和 自由度 均方 F 显著性
    1 回归 97139.027 6 16189.838 1855.933 .000b
    残差 95.956 11 8.723
    总计 97234.983 17
    在给定的显著性水平下,可以得到自由度为和对应的临界值为,而,因为,所以拒绝原假设,表明回归方程显著。
  3. 回归系数的检验。
    在检验时,首先提出假设,
    根据表3可得初步多元线性回归模型中各个自变量系数的检验统计量值:

在给定的显著性水平下,只有所对应的概率值小于给定的显著水平,所以拒绝原假设,表明在该模型中只有“人均GDP指数”回归系数显著。
从回归方程中可以看到,对CPI起正影响,对CPI起负影响。从实际社会生活来看,一般固定资产投资价格上涨,居民消费价格也应随之上涨,因此应和CPI呈现出正相关性,而非负相关性。为此,我们认为方程中可能出现多重共线性问题,应该继续优化模型[12]。
模型优化
逐步回归分析法是解除多重共线性问题的有效途径之一,它包含了向前引入法、向后剔除法、逐步回归法等几种常用的方法,下面就使用这几种方法来进行比较分析:
(a)向前引入法检验选择自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表6所示:
从表中能够看出,用向前引入法筛选自变量的过程为第一步引入,第二步引入,形成一个符合要求的线性回归模型。
表6 前进逐步回归输出结果
模型 非标准化系数 标准系数 t 显著性
B 标准错误 贝塔
1 (常量) 403.439 3.718 108.498 .000
人均GDP指数 .338 .008 .995 40.726 .000
2 (常量) 348.321 5.268 66.122 .000
人均GDP指数 .246 .009 .725 27.394 .000
农业生产资料价格指数 .167 .015 .286 10.795 .000
(b)向后剔除法检验筛选自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表7所示:
表7 后退逐步回归输出结果
模型 非标准化系数 标准系数 t 显著性
B 标准错误 贝塔
1 (常量) 281.360 67.532 4.166 .002
商品零售价格指数 .255 .255 .142 1.000 .339
农业生产资料价格指数 .111 .057 .191 1.966 .075
固定资产投资价格指数 -.039 .335 -.017 -.117 .909
工业生产者出厂价格指数 .026 .170 .012 .152 .882
人均GDP指数 .227 .041 .669 5.533 .000
进出口总额指数 .006 .026 .014 .212 .836
2 (常量) 281.009 64.633 4.348 .001
商品零售价格指数 .249 .240 .139 1.039 .319
农业生产资料价格指数 .111 .054 .191 2.051 .063
工业生产者出厂价格指数 .008 .068 .003 .113 .912
人均GDP指数 .224 .027 .659 8.206 .000
进出口总额指数 .007 .022 .018 .321 .754
3 (常量) 281.593 61.930 4.547 .001
商品零售价格指数 .254 .228 .141 1.114 .286
农业生产资料价格指数 .112 .052 .192 2.149 .051
人均GDP指数 .222 .023 .655 9.503 .000
进出口总额指数 .008 .017 .022 .506 .621
4 (常量) 285.115 59.881 4.761 .000
商品零售价格指数 .230 .217 .128 1.060 .307
农业生产资料价格指数 .129 .039 .220 3.292 .005
人均GDP指数 .224 .022 .661 10.022 .000
5 (常量) 348.321 5.268 66.122 .000
农业生产资料价格指数 .167 .015 .286 10.795 .000
人均GDP指数 .246 .009 .725 27.394 .000
从表中能够看出,用向后剔除法选择自变量的过程为第一步引入所有变量,第二步剔除,第三步剔除,第四步剔除,第五步剔除,最终形成一个符合要求的方程。
(c)逐步回归法检验筛选自变量。设置引入自变量的显著水平,剔除变量的显著水平,输出结果如表8所示:
表8 组合逐步回归输出结果
模型 非标准化系数 标准系数 t 显著性
B 标准错误 贝塔
1 (常量) 403.439 3.718 108.498 .000
人均GDP指数 .338 .008 .995 40.726 .000
2 (常量) 348.321 5.268 66.122 .000
人均GDP指数 .246 .009 .725 27.394 .000
农业生产资料价格指数 .167 .015 .286 10.795 .000
从表中能够看出,采用逐步回归法进行筛选自变量的过程为第一步引入,第二步引入。
综上输出结果可知,向后剔除法步骤比较繁琐,没有向前引入法和逐步回归法简便,然而最终得到的自变量均是“人均GDP指数”和“农业生产资料价格指数”,新的多元线性回归模型为:

虽然所获得的回归模型具有比较高的判定系数并通过了显著性检验,然而这还是不能称之为一个好模型。为了知道生成的模型是否为一个好模型,我们就必须要检验模型的基本假设真不真,这就要用到残差检验了,下面就将对新得到的模型进行残差检验。
残差检验
针对得到的新模型进行残差分析,以确定它是否符合模型的基本假设,得到结果见表9和图2:
表9 残差检验表
最小值 最大值(X) 平均值 标准偏差 数字
预测值 434.1052 650.5457 536.0389 75.58752 18
残差 -3.34028 5.54797 .00000 2.49633 18
标准预测值 -1.349 1.515 .000 1.000 18
标准残差 -1.257 2.088 .000 .939 18
从表中可知,标准残差的绝对值最大为2.088,没有超过默认值3,表明数据没有奇异值,从而说明标准化残差与标准正态分布[13]相对应。
在这里插入图片描述

图2 标准残差的直方图和P-P图
从左边的直方图中能够看出,曲线和柱子都呈中间较高,两边较低的状态,这说明该模型符合标准正态分布。从右边的P-P图中能够看出,各点近似呈一条直线且点都围绕在线的周围,表示数据具有较好的正态性。综合表9和图2可以看出,得到的新模型基本服从正态分布,期望为0,所以我们得到的新线性回归模型是有意义的。

结论与建议

1、研究结论
本文主要研究了多元线性回归模型的基本理论,在现实应用中,不能随意使用线性回归模型,当我们研究某个问题的时候,我们必须要保证每个指标因素都适用于模型,并且确定模型的基本假设是否都被满足。只有满足了适用线性回归模型的基本假定原则下才能进行线性回归模型的建立,在构建模型的过程中,除了要估计未知参数以外,还必须对得到的模型进行各种统计检验,检验模型的拟合效果,以及回归方程的显著性和回归系数的显著性。当我们设计模型的时候,如果没有通过检验,那么我们就必须得重新检查变量,构建新的模型,然后再次对新的模型进行统计检验,如果这样做不成功,那么循环以上步骤。直到我们建立合适的模型为止。只有建立合适的模型,才能解决我们最初的问题。
本文通过建立多元线性回归模型来确定影响CPI的主要因素,最后得出结论,CPI与农业生产资料价格和人均GDP指数呈线性关系[12]p24-28,且均呈正相关。
农业生产资料价格指数是一个相对数字,反映了一段时间内农产品价格变动趋势。随着我国农业现代化程度的日益提高,农业生产越来越依赖于农业生产资料。农产品的生产成本将随着农业投入物价的增加而上涨,只有不断提高农产品价格,农业才能维持其最初的利润率。因此,农业投入的价格会影响农产品的价格,继而也影响到居民消费价格指数的变化。
GDP是反映一个国家的国力和财富的数据,所有国家都认为它是衡量该国经济状况的最佳指标,因此,人均GDP指数会影响居民CPI的波动。
在选择变量的过程,我们可以发现,虽然利用向前引入法、向后剔除法和逐步回归法得到的模型相同,并且这三个方法的每一步都只能引入或者消除一个变量,但是向后剔除法的剔除变量过程相对比较繁琐,没有另外两种方法简洁。

2、政策建议

结合上文的回归分析,为中国CPI宏观调控提出以下建议:
(1)随着人们生活水平的提高,娱乐文化的水平和质量也在提高,对于中国而言,它可以加快中国服务业的发展,增加中国的GDP并优化中国的产业结构。针对我国国内生产总值的增速持续放缓的情况,我们必须积极地开展供给侧改革,促进产业结构优化升级,缓解供给过剩的压力,从而实现对CPI的稳定。
(2)为了抑制物价的过快增长和避免通货膨胀,政府首先应该严控农产品价格,监测价格变化,对突然的价格变化做出反应,加强对消费品市场的监管并继续改革资源定价机制,再者我们应当继续改革开放,增加国内需求,建设一个创新的国家,提高科技贡献率,增加居民收入,健全社会保障体系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值