一、引言
本文以一元线性回归为例,整理线性回归模型参数的估计方法。
样本 ( x , y ) (x,y) (x,y)可由 y = β 0 + β 1 x + ε y=\beta _{0}+\beta _{1}x+\varepsilon y=β0+β1x+ε 表示,其中, ε \varepsilon ε为随机因素引起的噪声, y = β 0 + β 1 x y=\beta _{0}+\beta _{1}x y=β0+β1x为用变量 x x x和 y y y关系描述的一元线性回归模型。模型中参数 β 0 \beta _{0} β0和 β 1 \beta _{1} β1估计的两种常用方法为最小二程法、最大似然估计法。
二、假设条件
(1)样本观测值
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})
(x1,y1),(x2,y2),...,(xn,yn)数据是独立观测的;
(2)解释变量
x
x
x是确定性变量,并非随机变量;
(3)随机变量
y
1
,
y
2
,
.
.
.
,
y
n
y_{1},y_{2},...,y_{n}
y1,y2,...,yn的期望不等,但方差相等,即
y
1
,
y
2
,
.
.
.
,
y
n
y_{1},y_{2},...,y_{n}
y1,y2,...,yn独立但不同分布;
(4)随机变量残差(扰动项)
ε
1
,
ε
2
,
.
.
.
,
ε
n
\varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n}
ε1,ε2,...,εn独立同分布,且
ε
i
∼
N
(
0
,
σ
2
)
\varepsilon_{i}\sim N(0,\sigma ^{2})
εi∼N(0,σ2),则
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma ^{2})
ε∼N(0,σ2)
三、最小二乘法
最小二程法用来寻找线性回归模型中的参数
β
0
\beta _{0}
β0和
β
1
\beta _{1}
β1的估计值,估计值用
β
0
^
\widehat{\beta _{0}}
β0
和
β
1
^
\widehat{\beta _{1}}
β1
表示。为获得最优估计值,算法将预测值和真实观测值之间的误差最小作为优化目标,即计算扰动项的最小值:
m
i
n
∑
i
=
1
n
ε
i
=
m
i
n
∑
i
=
1
n
(
y
i
−
y
i
^
)
=
m
i
n
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
)
min\sum_{i=1}^{n}\varepsilon _{i}=min\sum_{i=1}^{n}(y_{i}-\widehat{y_{i}})=min\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right )
mini=1∑nεi=mini=1∑n(yi−yi
)=mini=1∑n(yi−β0−β1x)
于是
β
0
\beta _{0}
β0和
β
1
\beta _{1}
β1的参数估计变成求
Q
=
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
)
Q=\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right )
Q=∑i=1n(yi−β0−β1x)的极值问题,求偏导
{
∂
Q
∂
β
0
=
0
∂
Q
∂
β
1
=
0
\begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \end{cases}
⎩⎨⎧∂β0∂Q=0∂β1∂Q=0
即可得到极值条件下的参数值,即为估计值
β
0
^
\widehat{\beta _{0}}
β0
和
β
1
^
\widehat{\beta _{1}}
β1
。整理后得结果:
{
β
0
^
=
y
‾
−
β
1
^
x
‾
β
1
^
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
\begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases}
⎩⎨⎧β0
=y−β1
xβ1
=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y)
四、极大似然估计
最小二乘法从扰动项
ε
\varepsilon
ε的最小值入手,而极大似然估计从扰动项
ε
\varepsilon
ε的概率分布入手。
最大似然估计的思想是利用总体的分布密度(连续变量)或概率分布(离散变量)的表达式、以及样本提供的信息建立求解未知参数估计量的方法。这种方法将能够使用的样本视为从总体中被抽中的概率最大的样本,所以这些样本的联合分布密度或联合概率分布为最大值时,模型的估计值最准确。
对于线性回归,假设
ε
\varepsilon
ε服从均值为0、方差为
σ
2
\sigma ^{2}
σ2正态分布,
x
i
x_{i}
xi是与
y
i
y_{i}
yi相关的非随机样本,则
y
i
∼
N
(
β
0
+
β
1
x
i
,
σ
2
)
y_{i}\sim N(\beta _{0}+\beta _{1}x_{i},\sigma ^{2})
yi∼N(β0+β1xi,σ2),
y
i
y_{i}
yi的分布密度函数为:
f
i
(
y
i
)
=
1
2
π
σ
e
x
p
[
−
1
2
σ
2
[
y
i
−
(
β
0
+
β
1
x
i
)
]
2
]
f_{i}\left ( y_{i} \right )=\frac{1}{\sqrt{2\pi}\sigma }exp\left [ -\frac{1}{2\sigma ^{2}}\left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ]
fi(yi)=2πσ1exp[−2σ21[yi−(β0+β1xi)]2]
样本
y
1
,
y
2
,
.
.
.
,
y
n
y_{1},y_{2},...,y_{n}
y1,y2,...,yn的联合密度分布函数为:
L
(
y
1
,
y
2
,
.
.
.
,
y
n
;
β
0
,
β
1
)
=
∏
i
=
1
n
f
i
(
y
i
)
=
(
2
π
σ
2
)
−
n
2
e
x
p
[
−
1
2
σ
2
∑
i
=
1
n
[
y
i
−
(
β
0
+
β
1
x
i
)
]
2
]
L(y_{1},y_{2},...,y_{n};\beta _{0},\beta _{1})=\prod_{i=1}^{n}f_{i}\left ( y_{i} \right )=(2 \pi \sigma^2)^{-\frac{n}{2}}exp\left [ -\frac{1}{2\sigma ^{2}}\sum_{i=1}^{n} \left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ]
L(y1,y2,...,yn;β0,β1)=i=1∏nfi(yi)=(2πσ2)−2nexp[−2σ21i=1∑n[yi−(β0+β1xi)]2]
取对数后:
l
n
(
L
)
=
−
n
2
l
n
(
2
π
σ
2
)
−
1
2
σ
2
∑
i
=
1
n
[
y
i
−
β
0
−
β
1
x
i
]
2
ln(L)=-\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2
ln(L)=−2nln(2πσ2)−2σ21i=1∑n[yi−β0−β1xi]2
等价于求
∑
i
=
1
n
[
y
i
−
β
0
−
β
1
x
i
]
2
\sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2
∑i=1n[yi−β0−β1xi]2的极小值,回到最小二乘法的原理。整理后得结果:
{
β
0
^
=
y
‾
−
β
1
^
x
‾
β
1
^
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
\begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases}
⎩⎨⎧β0
=y−β1
xβ1
=∑i=1n(xi−x)2∑i=1n(xi−x)(yi−y)
参考书:《应用回归分析》何晓群