CONTENTS
一元线性回归
一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。
变量之间的关系
变量之间的关系可分为2种类型:函数关系和相关关系。函数关系是意义对应的关系,但在实际问题中,影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间的不确定的数量关系,称为相关关系。
相关关系
在进行相关分析时,对总体有两个假定:
(1)两个变量之间是线性关系;
(2)两个变量都是随机变量。
在一元线性回归中,相关分析的目的在于测量变量之间的关系强度(r),回归分析的目的是考察变量之间的数量关系,主要解决以下几个问题:
(1)利用一组样本数据,确定变量之间的数学关系式;
(2)对这些关系式的可信程度进行各种统计检验,找出哪些变量的影响是显著的,哪些是不显著的;
(3)利用关系式,根据一个或几个变量的取值来估计另一个变量的取值,并给出估计的可靠程度。
一元线性回归模型
回归模型
只涉及一个自变量的回归称为一元回归,描述两个具有线性关系的变量之间关系的方程称为回归模型,一元线性回归模型可表示为:
y = β 0 + β 1 x + ϵ y=\beta_0+\beta_1x+\epsilon y=β0+β1x+ϵ
其中 ε ε ε 是被称为误差项的随机变量,反映了变量线性关系外的随机因素对 y y y 的影响。
上式称为理论回归模型,对它有以下假定:
(1)y与x之间具有线性关系;
(2)x是非随机的,在重复抽样中,x的取值是固定的;
以上2个假定表明,对于任何一个给定的x的值,y的取值都对应着一个分布,E(y)=β0+β2x代表一条直线。但由于单个y是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项ε。
(3)误差项ε是一个期望值为0的随机变量,因此,对于一个给定的x值,y的期望值E(y)=β0+β2x,实际上等于假定模型的形式是一条直线;
(4)对于所有的x,ε的方差σ2都相同,这意味着对于一个给定的x值,y的方差都等于σ2;
(5)误差项ε是一个服从正态分布的随机变量,且独立,即ε∼N(0,σ2)。一个特定的x值所对应的ε与其他x值对应的ε不相关。对于任何一个给定的x值,y都服从期望值为β0+β1x、方差为σ2的正态分布,不同的x值,y的期望值不同,但方差相同。
回归方程
描述y的期望值如何依赖自变量x的方程称为回归方程,一元线性回归方程(误差项的期望值为0)的形式为:
E ( y ) = β 0 + β 2 x E(y)=\beta_0+\beta_2x E(y)=β0+β2x
估计的回归方程
总体回归参数 β 0 \beta_0 β0 和 β 1 \beta_1 β1 是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:
y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x
参数的最小二乘估计
用最小化图中垂直方向的离差平方和来估计参数 β 0 \beta_0 β0 和 β 1 \beta_1 β1,这一方法称为最小二乘法。
回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
变差
y y y 的取值的波动称为变差,它来自两个方面:一是 x x x 的取值不同;二是除 x x x 以外的其它因素。一个具体的观测值的变差为 y − y ˉ y−\bar{y} y−yˉ,它可以分解为:
y − y ˉ = ( y − y ^ ) + ( y ^ − y ˉ ) y−\bar{y}=(y−\hat{y})+(\hat{y}-\bar{y}) y−yˉ=(y−y^)+(y^