前言
本科期间已经系统的学习过线性回归模型,奈何本菜鸡记性太差,每次用到还要重新找资料。。。近期,由于研究需要,又重新把线性回归模型学了一遍,也有了更深的理解,借此机会,系统性的总结一遍,免得用的时候又到处找资料。
文章目录
一元线性回归模型
模型及基本假设
对于具有线性关系的两个随机变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖自变量x和误差项
ε
\varepsilon
ε的方程就称为回归模型。一元回归模型可表示为:
y
=
β
0
+
β
1
x
+
ε
y=\beta_{0}+\beta_{1}x+\varepsilon
y=β0+β1x+ε
其中,误差项
ε
\varepsilon
ε包含遗漏的其他因素,变量的测量误差、回归函数的设定误差以及人类行为的内在随机性等。
线性回归模型的基本假设有:
(1)
E
(
ε
)
=
0
E(\varepsilon)=0
E(ε)=0
(2)
V
a
r
(
ε
i
)
=
V
a
r
(
ε
j
)
=
σ
2
Var(\varepsilon_{i})=Var(\varepsilon_{j})=\sigma^2
Var(εi)=Var(εj)=σ2
(3)
C
o
v
(
ε
i
,
ε
j
)
=
0
Cov(\varepsilon_{i},\varepsilon_{j})=0
Cov(εi,εj)=0
(4)
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma^2)
ε∼N(0,σ2)
根据回归模型中的假定,有 E ( y ) = β 0 + β 1 x E(y)=\beta_{0}+\beta_{1}x E(y)=β0+β1x,即y的期望值是x的线性函数,称此式为一元线性回归方程。
对于以上线性回归模型,考虑的统计推断问题为:
(1)对于未知参数
β
0
,
β
1
,
σ
2
\beta_{0},\beta_{1},\sigma^2
β0,β1,σ2进行估计;
(2)对关于
β
0
,
β
1
\beta_{0},\beta_{1}
β0,β1的某种假设,以及y服从线性模型的假设进行检验;
(3)对y进行预测和控制。
最小二乘法
普通最小二乘法(Ordiany Least Squares, OLS)就是选择使得残差平方和最小的
β
0
、
β
1
\beta_{0}、\beta_{1}
β0、β1:
m
i
n
∑
i
=
1
n
e
i
2
=
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
min \sum_{i=1}^{n}e_{i}^2=\sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1}x_{i})^2
mini=1∑nei2=i=1∑n(yi−β0−β1xi)2
分别对
β
0
、
β
1
\beta_{0}、\beta_{1}
β0、β1求偏导,并联立方程组,求得:
β
0
^
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
;
β
1
^
=
y
ˉ
−
β
0
^
x
ˉ
\hat{\beta_{0}}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}; \hat{\beta_{1}}=\bar{y}-\hat{\beta_{0}}\bar{x}
β0^=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ);β1^=yˉ−β0^xˉ
OLS估计量的性质
无偏性,一致性,最小方差性
β
0
^
、
β
1
^
\hat{\beta_{0}}、\hat{\beta_{1}}
β0^、β1^为
β
0
、
β
1
\beta_{0}、\beta_{1}
β0、β1的最佳线性无偏估计量(BLUE);
残差项的正交性
1.残差向量与所有解释变量(
1
′
,
x
′
1',x'
1′,x′)正交,即
1
′
e
=
0
,
x
′
e
=
0
1'e=0, x'e=0
1′e=0,x′e=0
或
∑
i
=
1
n
e
i
=
0
,
∑
i
=
1
n
e
i
x
i
=
0
\sum_{i=1}^{n} e_{i}=0, \sum_{i=1}^{n} e_{i} x_{i}=0
i=1∑nei=0,i=1∑neixi=0
(由OLS求解过程中建立的方程组可得)
2.残差向量与拟合值向量
y
^
\hat{y}
y^ 正交
∑
y
i
^
e
i
=
∑
(
β
0
^
+
β
^
1
x
i
)
e
i
=
0
\sum \hat{y_{i}} e_{i}=\sum (\hat{\beta_{0}}+\hat{\beta}_{1} x_{i}) e_{i}=0
∑yi^ei=∑(β0^+β^1xi)ei=0
判定系数
1.平方和分解公式
TSS (Total Sum of Squares)=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
\sum_{i=1}^{n}(y_{i}-\bar{y})^2
∑i=1n(yi−yˉ)2
ESS (Explained Sum of Squares)=
∑
i
=
1
n
(
y
i
^
−
y
ˉ
)
2
\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^2
∑i=1n(yi^−yˉ)2
RSS (Residual Sum of Squares)=
∑
i
=
1
n
e
i
2
\sum_{i=1}^{n}e_{i}^2
∑i=1nei2
T
S
S
=
E
S
S
+
R
S
S
TSS=ESS+RSS
TSS=ESS+RSS
2.拟合优度(判定系数、可决系数)
R
2
=
∑
(
y
i
^
−
y
ˉ
)
2
∑
(
y
i
−
y
ˉ
)
2
=
1
−
∑
e
i
2
∑
(
y
i
−
y
ˉ
)
2
R^2=\frac{\sum(\hat{y_{i}}-\bar{y})^2}{\sum(y_{i}-\bar{y})^2}=1-\frac{\sum e_{i}^2}{\sum(y_{i}-\bar{y})^2}
R2=∑(yi−yˉ)2∑(yi^−yˉ)2=1−∑(yi−yˉ)2∑ei2
3.相关系数
C
o
r
r
(
y
i
−
y
i
^
)
=
∑
(
y
i
−
y
ˉ
)
(
y
i
^
−
y
ˉ
)
∑
(
y
i
−
y
ˉ
)
2
∑
(
y
i
^
−
y
ˉ
)
2
Corr(y_{i}-\hat{y_{i}})=\frac{\sum (y_{i}-\bar{y})(\hat{y_{i}}-\bar{y})}{\sum(y_{i}-\bar{y})^2 \sum(\hat{y_{i}}-\bar{y})^2}
Corr(yi−yi^)=∑(yi−yˉ)2∑(yi^−yˉ)2∑(yi−yˉ)(yi^−yˉ)
注: 拟合优度等于
y
i
−
y
i
^
y_{i}-\hat{y_{i}}
yi−yi^之间相关系数的平方
假设检验
1.
β
0
^
,
β
1
^
\hat{\beta_{0}},\hat{\beta_{1}}
β0^,β1^的概率分布
2.
t
t
t检验
H
0
:
β
1
=
0
⟷
H
1
:
β
1
≠
0
H_{0}:\beta_{1}=0\longleftrightarrow H_{1}:\beta_{1}\neq 0
H0:β1=0⟷H1:β1=0
构建检验统计量:
t
=
(
β
1
^
−
β
1
)
/
[
σ
/
∑
(
x
i
−
x
ˉ
)
2
]
S
S
E
/
(
n
−
2
)
σ
2
=
β
1
^
−
β
1
S
β
1
^
∼
t
(
n
−
2
)
t=\frac{(\hat{\beta_{1}}-\beta_{1})/[\sigma /\sqrt{\sum(x_{i}-\bar{x})^2}]}{\sqrt{SSE/(n-2)\sigma^2}}=\frac{\hat{\beta_{1}}-\beta_{1}}{S_{\hat{\beta_{1}}}} \sim t(n-2)
t=SSE/(n−2)σ2(β1^−β1)/[σ/∑(xi−xˉ)2]=Sβ1^β1^−β1∼t(n−2)
拒绝法则:
(1)P值:P值
≤
α
\le α
≤α,则拒绝
H
0
H_{0}
H0
(2)临界值法:若
t
≤
−
t
α
/
2
t\le-t_{\alpha /2}
t≤−tα/2或
t
≥
t
α
/
2
t\ge t_{\alpha/2}
t≥tα/2,则拒绝
H
0
H_{0}
H0
3.第I类错误和第II类错误
4.F检验
H
0
:
β
1
=
0
⟷
H
1
:
β
1
≠
0
H_{0}:\beta_{1}=0 \longleftrightarrow H_{1}:\beta_{1}\neq 0
H0:β1=0⟷H1:β1=0
构造检验统计量:
F
=
M
S
R
M
S
E
=
S
S
R
/
1
S
S
E
/
(
n
−
2
)
∼
F
(
1
,
n
−
2
)
F=\frac{MSR}{MSE}=\frac{SSR/1}{SSE/(n-2)}\sim F(1,n-2)
F=MSEMSR=SSE/(n−2)SSR/1∼F(1,n−2)
拒绝法则同上。
注:
(1)拒绝
H
0
H_{0}
H0只能得到x和y之间存在显著性关系,并不意味着x与y的因果关系和线性关系;
(2)显著性检验仅仅能说明在x的样本观测范围内,x和y是相关的,而且这个线性关系只是在x的样本观测值范围里,解释了y的变异性的显著部分。
估计和预测
-
y
^
\hat{y}
y^可以被用作y的平均值(E(y))的一个点估计
若令 x ∗ x^* x∗为自变量x的给定值, y ∗ y^{*} y∗为 x = x ∗ x=x^* x=x∗时,y的可能值(是一个随机变量), E ( y ∗ ) E(y^*) E(y∗)为 x = x ∗ x=x^* x=x∗时,因变量y的平均值或期望值; y ^ ∗ = β 0 ^ + β 1 x ∗ \hat{y}^*=\hat{\beta_{0}}+\beta_{1}x^* y^∗=β0^+β1x∗为 x = x ∗ x=x^* x=x∗时, E ( y ∗ ) E(y^*) E(y∗)的点估计值和 y ∗ y^* y∗的一个预测值。
2.置信区间(
E
(
y
∗
)
E(y^*)
E(y∗)的区间估计)
3.预测区间(
y
∗
y^*
y∗的区间估计)
多元线性回归模型
模型及古典模型假设
1.一般的多元线性回归模型可写为
y
i
=
β
1
x
i
1
+
β
2
x
i
2
+
.
.
.
+
β
K
x
i
K
+
ϵ
i
=
X
β
+
ϵ
y_{i}=\beta_{1}x_{i1}+\beta_{2}x_{i2}+...+\beta_{K}x_{iK}+\epsilon_{i} =X \beta+\epsilon
yi=β1xi1+β2xi2+...+βKxiK+ϵi=Xβ+ϵ
2. 模型假设
(1)线性假定:
总体模型如上式,线性假设的含义是每个解释变量对
y
t
y_{t}
yt的边际效应为常数。
(2)严格外生性:
E
(
ϵ
i
∣
X
)
=
E
(
ϵ
i
∣
x
1
,
.
.
.
,
x
n
)
=
0
,
(
i
=
1
,
2
,
.
.
.
,
n
)
E(\epsilon_{i}|X)=E(\epsilon_{i}|x_{1},...,x_{n})=0, (i=1,2,...,n)
E(ϵi∣X)=E(ϵi∣x1,...,xn)=0,(i=1,2,...,n)
即
ϵ
i
\epsilon_{i}
ϵi均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据
x
i
x_{i}
xi中的解释变量。
(3)不存在“严格多重共线性”,即数据矩阵X列满秩。
(4)球形扰动项,即扰动项满足同方差、无自相关, 所以
ϵ
\epsilon
ϵ的协方差矩阵满足:
V
a
r
(
ϵ
∣
X
)
=
σ
2
I
n
Var(\epsilon|X)=\sigma^2 I_{n}
Var(ϵ∣X)=σ2In
(5)在给定X的情况下,
ϵ
∣
X
\epsilon|X
ϵ∣X服从正态分布,即
ϵ
∣
X
∼
N
(
0
,
σ
2
I
n
)
\epsilon|X \sim N(0,\sigma^2 I_{n})
ϵ∣X∼N(0,σ2In).
OLS估计量
对
β
1
,
β
2
,
.
.
.
,
β
K
\beta_{1}, \beta_{2},..., \beta_{K}
β1,β2,...,βK分别求偏导得:
β
^
=
(
X
′
X
)
−
1
X
′
y
\hat{\boldsymbol{\beta}}=(X'X)^{-1}X'y
β^=(X′X)−1X′y
OLS的小样本性质
小样本性质指,无论样本容量多少,这些性质都成立。根据以上古典模型假设,有:
小样本下的统计推断
- 对单个系数的t检验
同一元回归
- F检验
(1)根据沃尔德检验原理
对于多元线性回归,原假设为:
H
0
:
β
2
=
.
.
.
=
β
K
=
0
H_{0}:\beta_{2}=...=\beta_{K}=0
H0:β2=...=βK=0
写成向量形式,即为:
H
0
:
R
β
=
r
H_{0}:\boldsymbol{R \beta=r}
H0:Rβ=r
其中r为(K-1)维列向量, R为(K-1)*K维矩阵,且rank(R)=K-1.
根据沃尔德检验原理,由于
β
^
\hat{\beta}
β^ 是
β
\beta
β的估计量,故如果H0成立,则
(
R
β
^
−
r
)
(\boldsymbol{R\hat{\beta}-r})
(Rβ^−r)应该比较接近于零向量,这种接近程度可用其二次型来衡量:
(
R
β
^
−
r
)
′
[
V
a
r
(
R
β
^
−
r
)
]
−
1
(
R
β
^
−
r
)
(\boldsymbol{R\hat{\beta}-r})'[Var(\boldsymbol{R\hat{\beta}}-r)]^{-1}(\boldsymbol{R\hat{\beta}}-r)
(Rβ^−r)′[Var(Rβ^−r)]−1(Rβ^−r)
其中
V
a
r
(
R
β
^
−
r
)
=
V
a
r
(
R
β
^
)
=
R
V
a
r
(
β
^
)
R
′
=
σ
2
R
(
X
′
X
)
−
1
R
′
\begin{aligned} Var(\boldsymbol{R\hat{\beta}}-r)=Var(\boldsymbol{R\hat{\beta}}) =\boldsymbol{RVar(\hat{\beta})R'} =\sigma^2 \boldsymbol{R(X'X)^-1 R'} \end{aligned}
Var(Rβ^−r)=Var(Rβ^)=RVar(β^)R′=σ2R(X′X)−1R′
定理: 在假设5.1-5.5均满足,且原假设也成立的情况下,则F统计量服从自由度为(m,n-K)的F分布:
F
=
(
R
β
^
−
r
)
′
[
R
(
X
′
X
)
−
1
R
′
]
−
1
(
R
β
^
−
r
)
/
m
s
2
∼
F
(
m
,
n
−
K
)
F=\frac{\boldsymbol{(R\hat{\beta}-r)'[R(X'X)^{-1} R']^{-1}(R\hat{\beta}-r)}/m}{s^2} \sim F(m,n-K)
F=s2(Rβ^−r)′[R(X′X)−1R′]−1(Rβ^−r)/m∼F(m,n−K)
(2)似然比原理表达式
考虑以下约束极值问题:
m
i
n
β
^
S
S
R
(
β
^
)
,
s
.
t
.
R
β
^
=
r
min_{\hat{\beta}} SSR(\boldsymbol{\hat{\beta}}), s.t. \boldsymbol{R\hat{\beta}=r}
minβ^SSR(β^),s.t.Rβ^=r
记有约束回归的残差平方和为SSR *,无约束回归的残差平方和为SSR,在H0成立时,
(
S
S
R
∗
−
S
S
R
)
(SSR^{*}-SSR)
(SSR∗−SSR)不应很大,因此有:
F
=
(
S
S
R
∗
−
S
S
R
)
/
(
K
−
1
)
S
S
R
/
(
n
−
K
)
F=\frac{(SSR^{*}-SSR)/(K-1)}{SSR/(n-K)}
F=SSR/(n−K)(SSR∗−SSR)/(K−1)
(3)借助平方和分解公式
如果原假设
H
0
H_{0}
H0成立,则
M
S
R
=
S
S
R
/
(
K
−
1
)
,
M
S
E
=
S
S
E
/
(
n
−
K
)
MSR=SSR/(K-1), MSE=SSE/(n-K)
MSR=SSR/(K−1),MSE=SSE/(n−K)
为
σ
2
\sigma^{2}
σ2的两个独立估计量,因此,它们的比值应该接近1。构造检验统计量如下:
F
=
S
S
R
/
(
K
−
1
)
S
S
E
/
(
n
−
K
)
∼
F
(
K
−
1
,
n
−
K
)
F=\frac{SSR /(K-1)}{SSE/(n-K)} \sim F(K-1,n-K)
F=SSE/(n−K)SSR/(K−1)∼F(K−1,n−K)
大样本OLS
1.为何要发展大样本理论?
(1)小样本理论的假设过强
- 严格外生性假设意味着解释变量与所有的扰动项均正交;
- 小样本理论假设扰动项为正态分布,而现实中可能服从任何分布。
(2)在小样本理论的框架下,必须研究统计量的精确分布
(3)使用大样本理论的代价是要求样本容量大
2.OLS的大样本性质
(1)
β
^
\hat{\beta}
β^为一致估计量
- 定义: 考虑参数
β
\beta
β的估计量
β
n
^
\hat{\beta_{n}}
βn^,其中下标n表示样本容量,如果
β
n
^
\hat{\beta_{n}}
βn^依概率收敛到
β
\beta
β,则称
β
n
^
\hat{\beta_{n}}
βn^为
β
\beta
β的一致估计量。
2. 证明过程如下:
(2) β ^ \hat{\beta} β^服从渐近正态分布
(a)定义:如果 n ( β ^ n − β ) → N ( 0 , σ 2 ) \sqrt{n}(\hat{\beta}_{n}-\beta)\rightarrow N(0,\sigma^2) n(β^n−β)→N(0,σ2),则称 β n ^ \hat{\beta_{n}} βn^为渐近正态,称 σ 2 \sigma^2 σ2为其渐近方差,记为 A v a r ( β ^ n ) Avar(\hat{\beta}_{n}) Avar(β^n)。
(b)渐近协方差矩阵 的表达式为:
大样本统计推断
参考书目
【1】 陈强,计量经济学及Stata应用,高等教育出版社.
【2】贾俊平,何晓群,金勇进, 统计学,中国人民大学出版社.
【3】戴维 安德森,丹尼斯 斯威尼,商务与经济统计(第十三版)