曲线回归分析

    • 理论依据

【基本思想】

1.非线性模型的基本内容

变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。线性关系是指变量关系形式上虽然呈非线性关系,但可以通过变量变换转关系,并可最终进行线性回归分析,建立线性模型。本质非线性关系是指不仅形式上呈非线性关系,而且也无法通过变量变换转化为线性关系,最行线性回归分析,建立线性模型。本实验针对本质线性模型进行。

2.曲线估计的基本步骤

(1)绘制因变量与自变量的散点图,大致确定非线性关系的类型。

(2)选择多个曲线回归预测模型,估计参数。

(3)利用输出的检验统计量对回归预测模型进行各项显著性检验。

(4)选择一种最适合的曲线模型进行预测。

(5)分析评价预测效果。

【实验目的】

1.准确理解曲线回归的方法原理。

2.了解如何将本质线性关系模型转化为线性关系模型进行回归分析。

3.熟练掌握曲线估计的SPSS操作。

4.掌握如何就样本数据在11种不同的曲线模型中选择建立简单又适合

5.掌握建立合适曲线模型的判断依据。

6.掌握如何利用曲线回归方程进行预测。

7.培养运用曲线估计解决身边实际问题的能力。

    • 实验内容一

税收收入模型的设计和建立是近几年新的尝试,这适合我国以流转税为主体的税制结构。由于个别年份税收收入受一些政策性因素、行政性和不可预见性因素的影响,所以在建立模型来分析各种因素对税收收入的影响机理和影响程度时,不仅要使模型预测的结果能准确反映税收收入实际,而且要使模型预测体系能对经济、政策变化所造成的税收收入变动进行精确的动态模拟分析,从而为税收管理和政府决策提供科学依据。

综观国内外关于税收收入预测的研究可知,不同学者从不同的视角关注税收收入问题,并构建了多种预测模型。有的从税收自身角度建立模型,预测税收收入,有的从社会经济因素与税收收入关系角度来建立模型,预测税收收入,预测模型多种多样、差异很大。但以时间因素为外生变量建立曲线模型来预测税收收入的文献相对较少,用各种曲线模型比较税收预测精度的研究就更少了。本实验利用1985-2004年的税收收入数据建立曲线模型来预测我国2005年、2006年税收收入,比较预测误差,最终构建一种预测误差最小的曲线模型作为税收收入预测模型,力求为税收理论研究与税收工作实践提供一个有效工具。

本数据集包含年度(n)和税收收入现值(y)2个变量的20个观测。为体现税收收入的时间效应,在本数据集中,将1985-2004年这20年的数据按时间1,2,…,20排序(参见数据集“data16-1.sav”)。”

    • 操作步骤一

(1)制作散点图

1)打开数据集“data16-1.sav”,选择菜单:【Graphs】→【Scatter】→【Simple Scatter】。

图8-1:选择菜单步骤

2)弹出如图8-2所示的“Simple Scatterplot”对话框在此对话框中,选择税收收入现值[y]进入“Y Axis”框内;选择年度[n]进入“X Axis”框内。

图8-2:“Simple Scatterplot”对话框

3)点击“OK”,输出散点图如图8-3所示。

图8-3:税收收入现值与年度散点图

可以判断出税收收入现值随年度的增长而呈非线性增长,但还不能确定具体是哪种曲线模型最接近样本数据。下面依据最优非线性模型的判断统计量来选择最优曲线模型。

(2)选择最优曲线估计

1)选择菜单:【Analyze】→【Regression】→【Curve Estimation】。

图8-4:菜单操作步骤

2)弹出如图8-5所示的对话框在此对话框中的“Models”框下,选择与税收收入趋势线相近的几种模型,本实验可选择“Quadratic”、“Compound”、“Growth”、“Cubic”、“Exponential”、“Power”六种曲线模型进行比较分析。

图8-5:“Curve Estimation”对话框

3)选择“Plot models”选项,绘制所选择的各种回归线,比较与数据的拟合效果。

4)选择“Include constant in equation”选项,使回归模型中包含常数项。

5)选择“Display ANOVA table”选项,输出模型的方差分析表和各项回归系数显著性检验结果。

6)点击“Save”按钮,弹出如图8-6所示的“Curve Estimation:Save”对话框。选择“Predicted values”选项,保存预测值;选择“Residuals”选项,保存残差;选择“Prediction intervals”选项,保存预测值默认95%置信区间的上限和下限值。

图8-6:“Save”对话框

7)点击【Continue】→【OK】,输出结果。

(3)做出统计决策

比较各个回归方程显著性检验的F值和P值、判定系数R²等统计量,选择出最优拟合模型。

    • 结果分析一

Linear

表8-1显示了线性模型的拟合度R2为0.848,表明该模型具有满意的拟合度。

表8-1:线性模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.921

.848

.839

2677.804

The independent variable is 年度.

表8-2显示线性模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-2:线性模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

718035681.661

1

718035681.661

100.136

.000

Residual

129071391.553

18

7170632.864

Total

847107073.214

19

The independent variable is 年度.

表8-3为模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,P值为0.000 < 0.05,即通过了t检验。

表8-3:线性模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

1039.112

103.841

.921

10.007

.000

(Constant)

-2875.148

1243.924

-2.311

.033

Quadratic

表8-4显示二次项模型的拟合度R2为0.991,高于线性模型,表明该模型具有比线性模型更满意的拟合度。

表8-4:二次项模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.996

.992

.991

630.471

The independent variable is 年度.

表8-5显示二次项模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-5:二次项模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

840349684.873

2

420174842.437

1057.061

.000

Residual

6757388.341

17

397493.432

Total

847107073.214

19

The independent variable is 年度.

表8-6为模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,P值为0.000 < 0.05,即通过了t检验。

表8-6:二次项模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

-713.738

102.872

-.632

-6.938

.000

年度 ** 2

83.469

4.758

1.599

17.542

.000

(Constant)

3551.967

469.059

7.573

.000

Cubic

表8-7显示立方项模型的拟合度R2为0.998,高于二次项模型,表明该模型具有比二次项模型更满意的拟合度。

表8-7:立方项模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.999

.998

.998

283.538

The independent variable is 年度.

表8-8显示立方项模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-8:立方项模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

845820776.423

3

281940258.808

3507.001

.000

Residual

1286296.791

16

80393.549

Total

847107073.214

19

The independent variable is 年度.

表8-9为模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,立方项P值为0.000 < 0.05,即通过了t检验。但二次项和一次项变量P值均大于 0.05,即未通过t检验。

表8-9:立方项模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

240.833

124.619

.213

1.933

.071

年度 ** 2

-27.446

13.614

-.526

-2.016

.061

年度 ** 3

3.521

.427

1.321

8.249

.000

(Constant)

1681.205

309.717

5.428

.000

Compound

表8-11显示复合模型的拟合度R2为0.981,低于立方项模型,表明该模型具有较好的拟合度。

表8-11:复合模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.991

.982

.981

.113

The independent variable is 年度.

表8-12显示复合模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-12:复合模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

12.734

1

12.734

992.456

.000

Residual

.231

18

.013

Total

12.964

19

The independent variable is 年度.

表8-13为复合模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,复合模型P值为0.000 < 0.05,即通过了t检验。

表8-13:复合模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

1.148

.005

2.694

227.663

.000

(Constant)

1362.163

71.674

19.005

.000

The dependent variable is ln(税收收入现值).

Power

表8-14显示幂函数的拟合度R2为0.760,低于一次项模型,表明该模型具有较好的拟合度。

表8-14:幂函数模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.879

.772

.760

.405

The independent variable is 年度.

表8-15显示幂函数模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-15:幂函数模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

10.015

1

10.015

61.111

.000

Residual

2.950

18

.164

Total

12.964

19

The independent variable is 年度.

表8-16为幂函数模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,幂函数模型P值为0.000 < 0.05,即通过了t检验。

表8-16:幂函数模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

ln(年度)

.893

.114

.879

7.817

.000

(Constant)

879.044

227.035

3.872

.001

The dependent variable is ln(税收收入现值).

Growth

表8-17显示增长曲线的拟合度R2为0.981,低于立方项模型,表明该模型具有较好的拟合度。

表8-17:增长曲线模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.991

.982

.981

.113

The independent variable is 年度.

表8-18显示增长曲线模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-18:增长曲线模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

12.734

1

12.734

992.456

.000

Residual

.231

18

.013

Total

12.964

19

The independent variable is 年度.

表8-19为增长曲线模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,幂函数模型P值为0.000 < 0.05,即通过了t检验。

表8-19:增长曲线模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

.138

.004

.991

31.503

.000

(Constant)

7.217

.053

137.155

.000

The dependent variable is ln(税收收入现值).

Exponential

表8-20显示指数曲线的拟合度R2为0.981,低于立方项模型,表明该模型具有较好的拟合度。

表8-20:指数曲线模型摘要表

Model Summary

R

R Square

Adjusted R Square

Std. Error of the Estimate

.991

.982

.981

.113

The independent variable is 年度.

表8-21显示指数曲线模型的F检验结果,由表可知,P值为0.000 < 0.05,因此模型通过显著性检验。

表8-21:指数曲线模型ANOVA表

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Regression

12.734

1

12.734

992.456

.000

Residual

.231

18

.013

Total

12.964

19

The independent variable is 年度.

表8-22为指数曲线模型的回归系数,一般使用非标准化系数,即B列。该表还有回归系数的t检验。由表可知,幂函数模型P值为0.000 < 0.05,即通过了t检验。

表8-22:指数曲线模型系数表

Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

年度

.138

.004

.991

31.503

.000

(Constant)

1362.163

71.674

19.005

.000

The dependent variable is ln(税收收入现值).

图8-7是各模型的拟合回归线,直观的显示了立方模型是最佳的,而幂函数是最差的。

图8-7:税收收入现值拟合曲线图

    • 实验内容二

已有很多学者验证了能源消费与经济增长的因果关系,证明了能源消费是促进经济增长的原因之一。也有众多学者利用C-D生产函数验证了劳动和资本对经济增长的影响机理。所有这些研究都极少将劳动、资本和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小。

现从我国能源消费、全社会固定资产投资和就业人数的实际出发,假定生产技术水平在短期内不会发生较大变化,经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量,并假定经济增长与能源消费、资本和劳动力的关系均满足C-D生产函数。问题中的C-D生产函数为:

式中:Y为GDP,衡量总产出:K为全社会固定资产投资,衡量资本投入量;L为就业人数,衡量劳动投入量;E为能源消费总量,衡量能源投入量;

为未知参数。

我们以我国1985-2004年的有关数据建立了另一个SPSS数据集,参见数据集“data16-2.sav”。请您以此数据集为基础估计生产函数中的未知参数。

    • 操作步骤二

1.确定非线性回归模型的类型

由上述分析过程确定要建立的回归模型为:

式中,Y为自变量,K,L,E为解释变量,A为常数项。

2.通过变换将非线性方程转化为线性方程

本实验中建立的模型在形式上不属于表中的任何一种曲线模型,但属于本质线性模型,可将其转化为多元线性回归模型。

两边同时取对数:

得:

式中,

3.用最小二乘法建立回归方程

由非线性模型转化为线性模型后,即可按照建立多元线性回归模型的步骤进行操作,求得回归方程表达式。

4.进行逆变换,将线性方程转换为需要的非线性方程

执行完步骤3之后,得到多元线性回归模型的回归系数,进行步骤2的逆变换,求得最初建立的曲线模型的回归系数,从而将多元线性方程转换为要求的曲线。

    • 结果分析二

  1. 用最小二乘法建立回归方程

首先通过SPSS中的“转化-计算变量”功能,可将其转化为多元线性回归模型。

得:

式中,

代码如下:

1. DATASET ACTIVATE DataSet1.
2. COMPUTE lnY=LG10(Y).
3. COMPUTE lnK=LG10(K).
4. COMPUTE lnL=LG10(L).
5. COMPUTE lnE=LG10(E).
6. EXECUTE.

继而对计算新变量建立多元回归模型,结果如下:

从描述统计表8-23中可以看出,经济增长与能源消费、资本和劳动力非线性函数的平均值、方差、个案数。

表8-23:描述统计表

Descriptive Statistics

Mean

Std. Deviation

N

lnY

4.2975

.23833

21

lnK

3.8145

.30128

21

lnL

4.8164

.05817

21

lnE

5.0911

.12321

21

从模型变量相关系数表8-24中可以看出,经济增长与能源消费、资本和劳动力之间的相关系数及检验值,其中显著性P值均小于0.05,因此相关关系显著。且经济增长与能源消费、资本和劳动力之间的相关系数均大于0,呈显著正相关。

表8-24:模型变量相关系数表

Correlations

lnY

lnK

lnL

lnE

Pearson Correlation

lnY

1.000

.990

.895

.972

lnK

.990

1.000

.851

.967

lnL

.895

.851

1.000

.899

lnE

.972

.967

.899

1.000

Sig. (1-tailed)

lnY

.

.000

.000

.000

lnK

.000

.

.000

.000

lnL

.000

.000

.

.000

lnE

.000

.000

.000

.

N

lnY

21

21

21

21

lnK

21

21

21

21

lnL

21

21

21

21

lnE

21

21

21

21

从回归方法输入变量表8-25中可以看出,模型采用逐步回归法(Stepwise),引入变量lnK、lnL,剔除变量lnE。

表8-25:回归方法输入变量

Variables Entered/Removeda

Model

Variables Entered

Variables Removed

Method

1

lnK

.

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

2

lnL

.

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

a. Dependent Variable: lnY

从模型摘要表8-26中可以看出,模型1和模型2的复相关系数R、R2、调整的R2,调整后模型解释度呈递增趋势,最高为99.0%,解释变量与被解释变量之间线性关系十分显著。模型2的F检验统计量为19.138,显著性P值为0.000 < 0.05,因此通过F检验,即认为线性回归整体显著。其中DW统计量为0.764,其中当k=3(包括截距),n=21时,dl=0.718,du=1.554。又因为DW大于dl,小于du。因此无法准确判断随机扰动项是否存在序列相关问题,需要借助其他判断手法。

表8-26:模型摘要

Model Summaryc

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

Change Statistics

Durbin-Watson

R Square Change

F Change

df1

df2

Sig. F Change

1

.990a

.981

.979

.03414

.981

955.673

1

19

.000

2

.995b

.991

.990

.02442

.010

19.138

1

18

.000

.764

a. Predictors: (Constant), lnK

b. Predictors: (Constant), lnK, lnL

c. Dependent Variable: lnY

通过ANOVA表8-27中的F检验,我们可以了解线性回归分析是否具有统计学意义。下表为回归变量的方差分析,其中模型1、模型2的F检验的P值均为0.000 < 0.05,表明线性关系整体显著,即都通过F检验,可以认为回归整体线性显著,具有统计学意义。

表8-27:回归模型方差分析表

ANOVAa

Model

Sum of Squares

df

Mean Square

F

Sig.

1

Regression

1.114

1

1.114

955.673

.000b

Residual

.022

19

.001

Total

1.136

20

2

Regression

1.125

2

.563

943.573

.000c

Residual

.011

18

.001

Total

1.136

20

a. Dependent Variable: lnY

b. Predictors: (Constant), lnK

c. Predictors: (Constant), lnK, lnL

从表8-28中可以得到非标准化的回归系数、标准化的回归系数、t检验、显著性、置信区间、相关性等。其中自变量的t检验显著性均为0.000 < 0.05,说明回归系数显著,通过t检验。同时自变量与因变量相关系数分别为0.976、0.718 > 0,说明两者呈显著正相关。从多重共线性检验的角度看,模型容忍度为0.276 > 0.1,其倒数为3.628 < 10,因此模型不存在多重共线性问题。

最终,得到模型表达式为:

表8-28:回归系数及t检验表

Coefficients

Model

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

95.0% Confidence Interval for B

Correlations

Collinearity Statistics

B

Std. Error

Beta

Lower Bound

Upper Bound

Zero-order

Partial

Part

Tolerance

VIF

1

(Constant)

1.310

.097

13.508

.000

1.107

1.512

lnK

.783

.025

.990

30.914

.000

.730

.836

.990

.990

.990

1.000

1.000

2

(Constant)

-1.967

.752

-2.615

.018

-3.547

-.387

lnK

.655

.035

.828

18.969

.000

.582

.727

.990

.976

.435

.276

3.628

lnL

.782

.179

.191

4.375

.000

.406

1.158

.895

.718

.100

.276

3.628

从表8-29中可以得到未选入模型的变量lnE的标准化的回归系数、t检验、显著性、相关性、多重共线性检验等统计量。其中模型2的lnE的t检验显著性为0.999 > 0.05,说明回归系数不显著,未通过t检验。因此不引入变量lnE。

表8-29:未选入变量的回归系数及t检验表

Excluded Variablesa

Model

Beta In

t

Sig.

Partial Correlation

Collinearity Statistics

Tolerance

VIF

Minimum Tolerance

1

lnL

.191b

4.375

.000

.718

.276

3.628

.276

lnE

.222b

1.883

.076

.406

.065

15.308

.065

2

lnE

.000c

.002

.999

.000

.044

22.480

.044

a. Dependent Variable: lnY

b. Predictors in the Model: (Constant), lnK

c. Predictors in the Model: (Constant), lnK, lnL

从下表8-30中可以得到诊断回归模型的共线性诊断表,从表中可以知道方差比例和条件指数。从方差比例来看,某个特征值能够解释的方差比例不全都超过50%,因此不存在多重共线性现象。从条件指数来看,模型解释变量对应的条件指数都不是很大(均在30以下),这也印证了模型不存在多重共线性现象。

表8-30:共线性诊断表

Collinearity Diagnosticsa

Model

Dimension

Eigenvalue

Condition Index

Variance Proportions

(Constant)

lnK

lnL

1

1

1.997

1.000

.00

.00

2

.003

25.986

1.00

1.00

2

1

2.996

1.000

.00

.00

.00

2

.003

29.261

.00

.31

.00

3

2.157E-5

372.735

1.00

.69

1.00

a. Dependent Variable: lnY

从下表中可以得到回归模型的残差统计表,从表中可以知道预测因变量、预测标准差、预测值的标准误差、调整的预测值等统计量的最大值、最小值、平均值、方差、个案数。

表8-31:残差统计表

Residuals Statisticsa

Minimum

Maximum

Mean

Std. Deviation

N

Predicted Value

3.9369

4.7300

4.2975

.23720

21

Std. Predicted Value

-1.520

1.824

.000

1.000

21

Standard Error of Predicted Value

.006

.013

.009

.003

21

Adjusted Predicted Value

3.9298

4.7368

4.2973

.23824

21

Residual

-.06360

.03091

.00000

.02317

21

Std. Residual

-2.604

1.266

.000

.949

21

Stud. Residual

-2.678

1.359

.004

.996

21

Deleted Residual

-.06727

.03563

.00018

.02560

21

Stud. Deleted Residual

-3.357

1.394

-.030

1.103

21

Mahal. Distance

.138

5.037

1.905

1.725

21

Cook's Distance

.000

.138

.034

.040

21

Centered Leverage Value

.007

.252

.095

.086

21

a. Dependent Variable: lnY

下图为回归标准化残差直方图,横轴表示与回归相联系的标准化残差,纵轴表示残差的评率,并且右上可以看到标准差和平均值。本题数据符合正态分布。

下图为残差P-P图,横轴是实测累计概率,纵轴表示预期累计概率。由图可见所有散点均匀分布在正方形斜对角附近,表明模型满足随机扰动项服从正态分布这一假设。

下图为残差散点图,本例中反映了经济增长作为因变量其散点图的标准化残差。以纵轴0点为对称轴,各散点平均分布在其附近,没有明显的偏正或偏负,也没有表现出明显的规律性,因此可以认为随机扰动项不存在序列相关和异方差问题。

(2)进行逆变换

执行完步骤3之后,得到多元线性回归模型的回归系数,进行步骤2的逆变换,求得最初建立的曲线模型的回归系数,从而将多元线性方程转换为要求的曲线。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九九jiujiu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值