一、引言
设随机变量
y
y
y与一般变量
x
1
,
x
2
,
.
.
.
,
x
p
x_{1},x_{2},...,x_{p}
x1,x2,...,xp的线性回归模型为:
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
p
x
p
+
ε
y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{p}x_{p}+\varepsilon
y=β0+β1x1+β2x2+...+βpxp+ε
式中,
β
0
,
β
1
,
.
.
.
,
β
p
\beta _{0},\beta _{1},...,\beta _{p}
β0,β1,...,βp是要估计的参数,
β
0
\beta _{0}
β0为回归常数,
β
1
,
.
.
.
,
β
p
\beta _{1},...,\beta _{p}
β1,...,βp为回归系数;
x
1
,
x
2
.
.
.
,
x
p
x _{1},x_{2}...,x _{p}
x1,x2...,xp为解释变量;
y
y
y为被解释变量;
ε
\varepsilon
ε为残差。
对于实际问题,获得
n
n
n组观测数据
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
p
;
y
i
)
,
i
=
1
,
2
,
.
.
.
,
n
(x_{i1},x_{i2},...,x_{ip}; y_{i}),i=1,2,...,n
(xi1,xi2,...,xip;yi),i=1,2,...,n,则线性回归模型可以表示为:
{
y
1
=
β
0
+
β
1
x
11
+
β
2
x
12
+
.
.
.
+
+
β
p
x
1
p
+
ε
1
y
2
=
β
0
+
β
1
x
21
+
β
2
x
22
+
.
.
.
+
+
β
p
x
2
p
+
ε
2
.
.
.
.
.
.
y
n
=
β
0
+
β
1
x
n
1
+
β
2
x
n
2
+
.
.
.
+
+
β
p
x
n
p
+
ε
n
\begin{cases} y_{1}=\beta _{0}+\beta _{1}x_{11}+\beta _{2}x_{12}+...++\beta _{p}x_{1p}+\varepsilon_{1} \\[2ex] y_{2}=\beta _{0}+\beta _{1}x_{21}+\beta _{2}x_{22}+...++\beta _{p}x_{2p}+\varepsilon_{2} \\[2ex] ......\\[2ex] y_{n}=\beta _{0}+\beta _{1}x_{n1}+\beta _{2}x_{n2}+...++\beta _{p}x_{np}+\varepsilon_{n} \\[2ex] \end{cases}
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧y1=β0+β1x11+β2x12+...++βpx1p+ε1y2=β0+β1x21+β2x22+...++βpx2p+ε2......yn=β0+β1xn1+β2xn2+...++βpxnp+εn
写成矩阵形式
y
=
X
β
+
ε
y=X\beta+\varepsilon
y=Xβ+ε,式中
y
=
[
y
1
y
2
.
.
.
y
n
]
X
=
[
1
x
11
.
.
.
x
1
p
1
x
21
.
.
.
x
2
p
.
.
.
.
.
.
.
.
.
.
.
.
1
x
n
1
.
.
.
x
n
p
]
β
=
[
β
1
β
2
.
.
.
β
p
]
ε
=
[
ε
1
ε
2
.
.
.
ε
n
]
y=\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\ y_{n}\end{bmatrix} X=\begin{bmatrix}1 & x_{11}& ...& x_{1p}& \\ 1 & x_{21}& ...& x_{2p}& \\ ... & ...& ...& ... & \\ 1 & x_{n1}& ...& x_{np}& \end{bmatrix} \beta=\begin{bmatrix}\beta_{1}\\ \beta_{2}\\ ...\\ \beta_{p}\end{bmatrix} \varepsilon=\begin{bmatrix}\varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\end{bmatrix}
y=⎣⎢⎢⎡y1y2...yn⎦⎥⎥⎤X=⎣⎢⎢⎡11...1x11x21...xn1............x1px2p...xnp⎦⎥⎥⎤β=⎣⎢⎢⎡β1β2...βp⎦⎥⎥⎤ε=⎣⎢⎢⎡ε1ε2...εn⎦⎥⎥⎤
X是
n
×
(
p
+
1
)
n\times (p+1)
n×(p+1)阶矩阵,是自变量的样本矩阵。
二、假设条件
假设条件 | 检验方法 | 失效后果 |
---|---|---|
(1)样本观测样本数据是独立观测的; | ||
(2)解释变量 x 1 , x 2 . . . , x p x _{1},x_{2}...,x _{p} x1,x2...,xp是确定性变量,不是随机变量; | ||
(3)自变量和因变量是线性关系; | 【散点图分析: y − x y- x y−x 散点图】 | 预测能力差 |
(4)随机变量残差(扰动项) ε 1 , ε 2 , . . . , ε n \varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n} ε1,ε2,...,εn独立同分布; | 【异方差检验: ε − x \varepsilon-x ε−x 散点图、DW检验】 | 扰动项标准差估计不准, T检验失效 |
(5) ε i ∼ N ( 0 , σ 2 ) \varepsilon_{i}\sim N(0,\sigma ^{2}) εi∼N(0,σ2),则 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) ε∼N(0,σ2); | 【QQ检验】 | T检验失效 |
(6)解释变量和扰动项不存在线性关系; | 【残差图分析: ε − x \varepsilon- x ε−x 散点图 】 | 回归系数估计有偏 |
(7)解释变量之间不存在线性关系或强相关; | 【膨胀系数判断】 | 回归系数的标准误被放大 |
三、回归参数估计
3.1 最小二乘估计
对于模型
y
=
X
β
+
ε
y=X\beta+\varepsilon
y=Xβ+ε,最小二乘法就是寻找
β
0
,
β
1
,
.
.
.
,
β
p
\beta _{0},\beta _{1},...,\beta _{p}
β0,β1,...,βp,使离差平方和达到最小/极小值,则
Q
(
β
0
^
,
β
1
^
,
.
.
.
,
β
p
^
)
=
m
i
n
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
1
+
β
2
x
i
2
+
.
.
.
+
+
β
p
x
i
p
)
2
Q(\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}})=min\sum_{i=1}^n(y_{i}-\beta _{0}-\beta _{1}x_{i1}+\beta _{2}x_{i2}+...++\beta _{p}x_{ip})^2
Q(β0
,β1
,...,βp
)=mini=1∑n(yi−β0−β1xi1+β2xi2+...++βpxip)2
β
0
^
,
β
1
^
,
.
.
.
,
β
p
^
\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}}
β0
,β1
,...,βp
为回归参数的估计值。根据微分求极值原理,
{
∂
Q
∂
β
0
=
0
∂
Q
∂
β
1
=
0
∂
Q
∂
β
2
=
0
.
.
.
∂
Q
∂
β
p
=
0
\begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{2}}=0 \\[2ex] ...\\[2ex] \frac{\partial Q}{\partial \beta _{p}}=0\\[2ex] \end{cases}
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧∂β0∂Q=0∂β1∂Q=0∂β2∂Q=0...∂βp∂Q=0
整理后得
β
^
=
(
X
T
X
)
−
1
X
T
y
\widehat{\beta }=(X^{T}X)^{-1}X^{T}y
β
=(XTX)−1XTy
则
y
^
=
β
0
^
+
β
1
^
x
1
+
β
2
^
x
2
+
.
.
.
+
β
p
^
x
p
\widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p}
y
=β0
+β1
x1+β2
x2+...+βp
xp
3.2 最大似然估计
多元线性回归参数的最大似然估计与一元线性回归的思想一致,对于模型
y
=
X
β
+
ε
y=X\beta+\varepsilon
y=Xβ+ε,有
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma ^{2})
ε∼N(0,σ2),
X
X
X 是与
y
y
y 相关的非随机变量,则
y
∼
N
(
X
β
,
σ
2
)
y\sim N(X\beta,\sigma ^{2})
y∼N(Xβ,σ2)。此时最大似然函数
L
=
(
2
π
σ
2
)
−
n
/
2
e
x
p
(
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
)
L=(2 \pi \sigma^2)^{-n/2}exp(-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta))
L=(2πσ2)−n/2exp(−2σ21(y−Xβ)T(y−Xβ))
取对数后
l
n
L
=
−
n
2
l
n
(
2
π
)
−
n
2
l
n
(
σ
2
)
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
)
lnL=-\frac{n}{2}ln(2 \pi )-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta))
lnL=−2nln(2π)−2nln(σ2)−2σ21(y−Xβ)T(y−Xβ))
这等价于使
(
y
−
X
β
)
T
(
y
−
X
β
)
(y-X\beta)^T(y-X\beta)
(y−Xβ)T(y−Xβ)达到最小值,与最小二乘法一致。参数的估计结果
β
^
=
(
X
T
X
)
−
1
X
T
y
\widehat{\beta }=(X^{T}X)^{-1}X^{T}y
β
=(XTX)−1XTy
则
y
^
=
β
0
^
+
β
1
^
x
1
+
β
2
^
x
2
+
.
.
.
+
β
p
^
x
p
\widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p}
y
=β0
+β1
x1+β2
x2+...+βp
xp
参考书:《应用回归分析》何晓群