线性回归
一、首言
回归分析统计方法研究变量之间的关系并且对其构建模型,回归的应用领域广泛,几乎是可以遍及所有的学科。
举个例子,如下图所示:
我们可以观察到,这些观测值的散点图,它清楚地表明了y与x之间的关系,能够看到所有观测的数据大概是落到了同一条直线上。上图画出了这条直线,但是我们知道的是这条直线其实并不完全准确。我们假设这条直线的方程为:
y
=
β
0
+
β
1
x
y=\beta_0+\beta_1x
y=β0+β1x
式中,
β
0
\beta_0
β0为截距,
β
1
\beta_1
β1为斜率。但是,因为数据点并不是精确地落到了这条直线上,所以,我们对上一个方程进行修改,令y的观测值和直线上
β
0
+
β
1
x
\beta_0+\beta_1x
β0+β1x之间的差值为误差
ε
\varepsilon
ε,因此,我们就有更加合理的模型为
y
=
β
0
+
β
1
x
+
ε
y=\beta_0+\beta_1x+\varepsilon
y=β0+β1x+ε
我们称该方程为线性回归模型,习惯上将x称为自变量,y称为因变量;或者x称为预测变量或回归变量,y称为响应变量。
在使用回归分析的过程中,一个重要的目标就是估计回归模型中的未知参数,这一过程也称为用模型拟合数据。在回归分析的下一阶段就是模型适应性检验,模型适应性检验用来研究模型的适当程度,确定拟合质量的高低。
在进行数据收集的时候,我们可以使用如下的方法
- 基于历史数据的回顾性研究
- 观测性研究
- 实验设计
回归的用途
- 描述数据
- 参数估计
- 预测与评估
- 控制
二、简单线性回归
2.1 简单线性回归模型
简单线性回归模型为:
y
=
β
0
+
β
1
x
+
ε
y=\beta_0+\beta_1x+\varepsilon
y=β0+β1x+ε
在式中,截距
β
0
\beta_0
β0与斜率
β
1
\beta_1
β1为未知常数,
ε
\varepsilon
ε为随机误差项。假设误差项的均值为0,且其方差为
σ
2
\sigma^2
σ2未知。此外通常假设方差是不相关的 ,不相关意味着一个误差的值不取决于其他误差的值。
换句话说,对于每一个x的可能值,存在一个y的概率分布,这一分布的均值为
E
(
y
∣
x
)
=
β
0
+
β
1
x
E(y|x)=\beta_0+\beta_1x
E(y∣x)=β0+β1x
方差为
V
a
r
(
y
∣
x
)
=
V
a
r
(
β
0
+
β
1
x
+
ε
)
=
σ
2
Var(y|x)=Var(\beta_0+\beta_1x+\varepsilon)=\sigma^2
Var(y∣x)=Var(β0+β1x+ε)=σ2
因此,y的均值是x的线性函数,然而y的方差不依赖x的取值。进一步来说,因为误差是不相关的,所以响应变量也是不相关的。参数
β
0
\beta_0
β0和
β
1
\beta_1
β1通常称为相关系数。
2.2 回归参数的最小二乘估计
参数 β 0 \beta_0 β0和 β 1 \beta_1 β1是未知的,所以我们需要进行估计。
2.2.1 β 0 \beta_0 β0和 β 1 \beta_1 β1的估计
使用最小二乘法来估计截距
β
0
\beta_0
β0与斜率
β
1
\beta_1
β1,也就是使估计
β
0
\beta_0
β0与
β
1
\beta_1
β1使得观测值
y
i
y_i
yi和回归直线之间差值的平方和最小。由此我们可以可以写出
y
i
=
β
0
+
β
1
x
i
+
ε
i
(
i
=
1
,
2
,
.
.
.
,
n
)
y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n)
yi=β0+β1xi+εi(i=1,2,...,n)
我们将上面的式子称为样本回归模型,其中样本回归模型由n对数据
(
y
i
,
x
i
)
(
i
=
1
,
2
,
.
.
.
,
n
)
(y_i,x_i)(i=1,2,...,n)
(yi,xi)(i=1,2,...,n)写出,因此最小二乘准则为
S
(
β
0
,
β
1
)
=
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
S(\beta_0,\beta_1)=\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2
S(β0,β1)=i=1∑n(yi−β0−β1xi)2
β
0
\beta_0
β0与
β
1
\beta_1
β1的最小二乘估计量分别为
β
0
^
\hat{\beta_0}
β0^与
β
1
^
\hat{\beta_1}
β1^,并且需要满足:
∂
S
∂
β
0
∣
β
0
^
,
β
1
^
=
−
2
∑
i
=
1
n
(
y
i
−
β
0
^
−
β
1
^
x
i
)
=
0
\left.\dfrac{\partial S}{\partial\beta_0}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0
∂β0∂S∣∣∣∣β0^,β1^=−2i=1∑n(yi−β0^−β1^xi)=0以及
∂
S
∂
β
1
∣
β
0
^
,
β
1
^
=
−
2
∑
i
=
1
n
(
y
i
−
β
0
^
−
β
1
^
x
i
)
x
i
=
0
\left.\dfrac{\partial S}{\partial\beta_1}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)x_i=0
∂β1∂S∣∣∣∣β0^,β1^=−2i=1∑n(yi−β0^−β1^xi)xi=0
化简上面的式子容易得到:
n
β
0
^
+
β
1
^
∑
i
=
1
n
x
i
=
∑
i
=
1
n
y
i
β
0
^
∑
i
=
1
n
x
i
+
β
1
^
∑
i
=
1
n
x
i
2
=
∑
i
=
1
n
y
i
x
i
n\hat{\beta_0}+\hat{\beta_1}\sum_{i=1}^nx_i=\sum_{i=1}^ny_i \\ \hat{\beta_0}\sum_{i=1}^nx_i+\hat{\beta_1}\sum_{i=1}^nx_i^2=\sum_{i=1}^ny_ix_i
nβ0^+β1^i=1∑nxi=i=1∑nyiβ0^i=1∑nxi+β1^i=1∑nxi2=i=1∑nyixi
以上的方程称为 最小二乘正规方程,并且呢该正规方程的解为:
β
0
^
=
y
ˉ
−
β
1
^
x
ˉ
以
及
β
1
^
=
∑
i
=
1
n
y
i
x
i
−
(
∑
i
=
1
n
y
i
)
(
∑
i
=
1
n
x
i
)
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
n
\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} \\ 以及\\ \hat{\beta_1}=\frac{\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}{n}}{\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}}
β0^=yˉ−β1^xˉ以及β1^=∑i=1nxi2−n(∑i=1nxi)2∑i=1nyixi−n(∑i=1nyi)(∑i=1nxi)
式中,
y
ˉ
=
1
n
∑
i
=
1
n
y
i
\bar y=\frac{1}{n}\sum_{i=1}^ny_i
yˉ=n1∑i=1nyi与
x
ˉ
=
=
1
n
∑
i
=
1
n
x
i
\bar x==\frac{1}{n}\sum_{i=1}^nx_i
xˉ==n1∑i=1nxi分别为
x
i
x_i
xi,
y
i
y_i
yi的平均值。因此
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^分别是截距和斜率的最小二乘估计量,所以简单回归分析模型拟合为
y
^
=
β
0
^
+
β
1
^
x
\hat{y}=\hat{\beta_0}+\hat{\beta_1}x
y^=β0^+β1^x
因为在上面的方程中有分母为
x
i
x_i
xi的校正平方和,分子为
x
i
,
y
i
x_i,y_i
xi,yi的校正叉积和,所以我们可以将分母和分子用更加紧凑的记号记为:
S
x
x
=
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
n
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
S
x
y
=
∑
i
=
1
n
y
i
x
i
−
(
∑
i
=
1
n
y
i
)
(
∑
i
=
1
n
x
i
)
n
=
∑
i
=
1
n
y
i
(
x
i
−
x
ˉ
)
S_{xx}={\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}}=\sum_{i=1}^n(x_i-\bar x)^2\\ S_{xy}=\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}n=\sum_{i=1}^ny_i(x_i-\bar x)\\
Sxx=i=1∑nxi2−n(∑i=1nxi)2=i=1∑n(xi−xˉ)2Sxy=i=1∑nyixi−n(∑i=1nyi)(∑i=1nxi)=i=1∑nyi(xi−xˉ)
因此,我们可以将方程记为
β
1
^
=
S
x
y
S
x
x
\hat{\beta_1}=\frac{S_{xy}}{S_{xx}}
β1^=SxxSxy
响应变量的值
y
i
y_i
yi和其对应的拟合值
y
i
^
\hat{y_i}
yi^之间的差值为残差。数学上第i个残差为:
e
i
=
y
i
−
y
i
^
=
y
i
−
(
β
0
^
+
β
1
^
x
i
)
(
i
=
1
,
2
,
3...
n
)
e_i=y_i-\hat{y_i}=y_i-({\hat{\beta_0}+\hat{\beta_1}x_i}) \qquad (i=1,2,3...n)
ei=yi−yi^=yi−(β0^+β1^xi)(i=1,2,3...n)
残差在研究模型的适应性,以及在探测是否违背基本假设中扮演着重要的角色。
2.2.2 最小二乘估计量的性质与回归模型拟合
最小二乘估计量
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^具有若干重要的性质。首先呢,我们容易发现
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^是观测值
y
i
y_i
yi的线性组合。举例来说,
β
1
^
=
S
x
y
S
x
x
=
∑
i
=
1
n
c
i
y
i
\hat{\beta_1}=\frac{S_{xy}}{S_{xx}}=\sum_{i=1}^nc_iy_i
β1^=SxxSxy=i=1∑nciyi
在式中,
c
i
=
(
x
i
−
x
ˉ
)
/
S
x
x
c_i=(x_i-\bar{x})/S_{xx}
ci=(xi−xˉ)/Sxx
- 最小二乘法估计量 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^式模型参数 β 0 {\beta_0} β0, β 1 {\beta_1} β1的无偏估计量(如果需要证明,请留言。)
- 高斯-马尔可夫定理: 对于满足假设 E ( ε ) = 0 , V a r ( ε ) = σ 2 E(\varepsilon)=0,Var(\varepsilon)=\sigma ^2 E(ε)=0,Var(ε)=σ2以及误差不相关的回归模型方程 y i = β 0 + β 1 x i + ε i ( i = 1 , 2 , . . . , n ) y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n) yi=β0+β1xi+εi(i=1,2,...,n),最小二乘法的估计量是无偏的,同时相比其他同为 y i y_i yi线性组合的无偏估计量,最小二乘法估计量的方差最小。通常称 最小二乘法估计量是 最佳线性无偏估计量,其中“最佳”意味着方差最小。
- 所有含有截距项
β
0
\beta_0
β0的回归模型其残差之和恒为0,也就是说
∑ i = 1 n ( y i − y i ^ ) = ∑ i = 1 n e i = 0 \sum_{i=1}^n(y_i-\hat{y_i})=\sum_{i=1}^ne_i=0 i=1∑n(yi−yi^)=i=1∑nei=0 - 观测值
y
i
y_i
yi的和总是恒等于拟合值
y
i
^
\hat{y_i}
yi^的和,即
∑ i = 1 n y i = ∑ i = 1 n y i ^ \sum_{i=1}^ny_i=\sum_{i=1}^n\hat{y_i} i=1∑nyi=i=1∑nyi^ - 最小二乘回归直线总是穿过数据的中点 ( y ˉ , x ˉ ) (\bar{y},\bar{x}) (yˉ,xˉ)
- 以对应回归变量值为权重的残差之和恒等于0,也就是说
∑ i = 1 n x i e i = 0 \sum_{i=1}^nx_ie_i=0 i=1∑nxiei=0 - 以对应拟合值为权重的残差之和也恒等于0,也就是说
∑ i = 1 n y i e i = 0 \sum_{i=1}^ny_ie_i=0 i=1∑nyiei=0
2.2.3 σ 2 \sigma^2 σ2的估计
假设检验以及构造与回归模型有关的区间估计都需要
σ
2
\sigma^2
σ2的估计值。理想情况下需要这一估计值与模型拟合的适应性无关,这只有在对至少一个x值有若干个y的观测值,或者能够获得与
σ
2
\sigma^2
σ2的先验信息时,才是有可能的。如果不能使用上面的方法得到
σ
2
\sigma^2
σ2的估计值,就要通过残差平方和,即 误差平方和 来求得:
S
S
残
=
∑
i
=
1
n
e
i
2
=
∑
i
=
1
n
(
y
i
−
y
i
^
)
2
SS_残=\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{y_i})^2
SS残=i=1∑nei2=i=1∑n(yi−yi^)2
将
y
i
^
=
β
0
^
+
β
1
^
x
i
\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i
yi^=β0^+β1^xi代入方程,我们得到:
S
S
残
=
∑
i
=
1
n
(
y
i
−
(
β
0
^
+
β
1
^
x
i
)
)
2
=
∑
i
=
1
n
(
y
i
−
(
y
ˉ
−
x
ˉ
β
^
1
+
β
1
^
x
i
)
)
2
∑
i
=
1
n
y
i
2
−
n
y
ˉ
2
−
β
^
1
∑
x
=
1
n
y
i
(
x
i
−
x
ˉ
)
2
=
∑
i
=
1
n
y
i
2
−
n
y
ˉ
2
−
β
^
1
S
x
y
SS_残=\sum_{i=1}^n(y_i-(\hat{\beta_0}+\hat{\beta_1}x_i))^2\\= \sum_{i=1}^n(y_i-(\bar{y}-\bar{x}\hat\beta_1+\hat{\beta_1}x_i))^2 \\ \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1\sum_{x=1}^ny_i(x_i-\bar{x})^2 \\= \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1S_{xy}
SS残=i=1∑n(yi−(β0^+β1^xi))2=i=1∑n(yi−(yˉ−xˉβ^1+β1^xi))2i=1∑nyi2−nyˉ2−β^1x=1∑nyi(xi−xˉ)2=i=1∑nyi2−nyˉ2−β^1Sxy
而
∑
i
=
1
n
y
i
2
−
n
y
ˉ
2
=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
S
S
总
\sum_{i=1}^ny_i^2-n\bar{y}^2=\sum_{i=1}^n(y_i-\bar y)^2=SS_总
i=1∑nyi2−nyˉ2=i=1∑n(yi−yˉ)2=SS总
恰是响应变量观测值的校正平方和,所以,
S
S
残
=
S
S
总
−
β
^
1
S
x
y
SS_残=SS_总-\hat\beta_1S_{xy}
SS残=SS总−β^1Sxy
残差平方和有n-2个自由度,这是因为两个自由度与得到
y
^
i
\hat y_i
y^i的估计值
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^相关。另外我们可以证明
S
S
残
SS_残
SS残的期望值为
E
(
S
S
残
)
=
(
n
−
2
)
σ
2
E(SS_残)=(n-2)\sigma^2
E(SS残)=(n−2)σ2,所以方差的无偏估计量为:
σ
2
=
S
S
残
n
−
2
=
M
S
残
\sigma^2=\frac{SS_残}{n-2}=MS_残
σ2=n−2SS残=MS残
在上式中,
M
S
残
MS_残
MS残为残差均方,
σ
2
\sigma^2
σ2的平方根有时候称为回归标准误差,回归标准误差与响应变量y具有相同的单位。
因为
σ
2
\sigma^2
σ2取决于残差平方和,所以任何模型误差的假设的违背或者对模型形式的误设都可能严重影响
σ
2
\sigma^2
σ2的估计值
σ
^
2
\hat\sigma^2
σ^2的实用性,因为
σ
^
2
\hat\sigma^2
σ^2是由回归模型的残差获得,所以称
σ
2
\sigma^2
σ2的估计值是模型依赖的。
2.2.4 简单线性回归的另外一种形式
y ^ = y ˉ + β 1 ^ ( x − x ˉ ) \hat{y}=\bar{y}+\hat{\beta_1}(x-\bar x) y^=yˉ+β1^(x−xˉ)
2.3 斜率与截距的假设检验
我们假设:误差服从独立正态分布,且均值为0,方差为 σ 2 \sigma^2 σ2,简写为NID(0, σ 2 \sigma^2 σ2)
2.3.1 使用t检验
假设希望检验斜率等于常数这一个假设,称这一假设为
β
10
\beta_{10}
β10,恰当的假设为
H
0
:
β
1
=
β
10
H
1
:
β
1
≠
β
10
H_0:\beta_1=\beta_{10} \qquad H_1:\beta_1 \neq\beta_{10}
H0:β1=β10H1:β1=β10
式中设定了一个双侧检验。由于误差
ε
i
\varepsilon _i
εi服从NID(0,
σ
2
\sigma^2
σ2)分布,所以观测值
y
i
y_i
yi服从NID(
β
0
+
β
1
x
i
\beta_0+\beta_1x_i
β0+β1xi,
σ
2
\sigma^2
σ2)分布。
β
1
^
\hat{\beta_1}
β1^是观测值的线性组合,所以使用2.2.2我们知道
β
1
^
\hat{\beta_1}
β1^服从均值为
β
1
\beta_1
β1,方差为
σ
2
/
S
x
x
\sigma^2/S_{xx}
σ2/Sxx的正态分布。所以,如果
H
0
H_0
H0为真,那么一定有统计量:
Z
0
=
β
^
1
−
β
10
σ
2
/
S
x
x
Z_0=\frac{\hat\beta_1-\beta_{10}}{\sqrt{\sigma^2/S_{xx}}}
Z0=σ2/Sxxβ^1−β10
服从N(0,1)分布。如果
σ
\sigma
σ已知,我们就可以使用
Z
0
Z_0
Z0检验假设方程了,然而,一般该参数都是未知的。我们已经看到
M
S
残
MS_残
MS残是
σ
2
\sigma^2
σ2的无偏估计量。并且容易验证
(
n
−
2
)
M
S
残
(n-2)MS_残
(n−2)MS残服从
X
n
−
2
2
X^2_{n-2}
Xn−22分布,且
M
S
残
MS_残
MS残与
β
1
^
\hat{\beta_1}
β1^独立,所以给出的t统计量的定义为:
t
0
=
β
1
−
β
10
^
M
S
残
/
S
x
x
t_0=\frac{\hat{\beta_1-\beta_{10}}}{\sqrt{MS_残/S_{xx}}}
t0=MS残/Sxxβ1−β10^
如果假设
H
0
H_0
H0为真,那么
t
0
t_0
t0服从
t
n
−
2
t_{n-2}
tn−2分布,且其自由度就是
M
S
残
MS_残
MS残的自由度。所以在检验的时候,检验程序计算了
t
0
t_0
t0,将来自上述方程的
t
0
t_0
t0的观测值与
t
n
−
2
t_{n-2}
tn−2分布
(
t
α
/
2
,
n
−
2
)
(t_{\alpha/2,n-2})
(tα/2,n−2)上的
α
/
2
\alpha/2
α/2分位点进行比较。
如果
∣
t
0
∣
>
t
α
/
2
,
n
−
2
|t_0|>t_{\alpha/2,n-2}
∣t0∣>tα/2,n−2
这一程序将拒绝原假设,另外P值方法也可以用于决策。
方程中检验统计量
t
0
t_0
t0的分母通常称为斜率的估计标准误差,或者更加精简地称为斜率的标准误差,也就是说
s
e
(
β
1
^
)
=
M
S
残
S
x
x
se(\hat{\beta_1})=\sqrt{\frac{MS_残}{S_{xx}}}
se(β1^)=SxxMS残
因此,我们可以将
t
0
t_0
t0写成:
t
0
=
β
^
1
−
β
10
s
e
(
β
1
^
)
t_0=\frac{\hat{\beta}_1-\beta_{10}}{se(\hat{\beta_1})}
t0=se(β1^)β^1−β10
同理,可以处理用于截距的假设检验。为了检验
H
0
:
β
0
=
β
00
,
H
1
:
β
0
≠
β
00
H_0: \beta_0=\beta_{00}, H_1:\beta_0 \neq \beta_{00}
H0:β0=β00,H1:β0=β00
要使用检验统计量:
t
0
=
β
0
^
−
β
00
M
S
残
(
1
/
n
+
x
ˉ
2
/
S
x
x
)
=
β
0
^
−
β
00
s
e
(
β
0
^
)
t_0=\frac{\hat{\beta_0}-\beta_{00}}{\sqrt{MS_残(1/n+\bar x^2/S_{xx})}}=\frac{\hat{\beta_0}-\beta_{00}}{se(\hat{\beta^0})}
t0=MS残(1/n+xˉ2/Sxx)β0^−β00=se(β0^)β0^−β00
式中,
s
e
(
β
ˉ
0
)
=
M
S
残
(
1
/
n
+
x
ˉ
2
/
S
x
x
)
se(\bar\beta_0)={\sqrt{MS_残(1/n+\bar x^2/S_{xx})}}
se(βˉ0)=MS残(1/n+xˉ2/Sxx)为截距的标准误差。如果
∣
t
0
∣
>
t
α
/
2
,
n
−
2
|t_0|>t_{\alpha/2,n-2}
∣t0∣>tα/2,n−2,则拒绝假设
H
0
H_0
H0
2.4 简单线性回归的区间估计
2.5 新观测值的预测
回归模型的一个重要应用就是预测特定水平的回归变量x对应的新观测值y,如果
x
0
x_0
x0是所感兴趣的回归变量的值,那么
y
0
^
=
β
0
^
+
β
1
^
x
0
\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0
y0^=β0^+β1^x0
是响应变量
y
0
y_0
y0新值点的估计。
现在考虑如何得到这一未来观测值
y
0
y_0
y0的区间估计。因为在
x
=
x
0
x=x_0
x=x0处响应变量的均值的置信区间是对y均值的区间估计,不是对来自分布的关于未来观测值的概率表述,所以运用响应变量均值的区间估计方法并不合适。下面研究未来观测值
y
0
y_0
y0的预测区间。
注意随机变量
ψ
=
y
0
−
y
0
^
\psi=y_0-\hat{y_0}
ψ=y0−y0^
因为未来观测值
y
0
y_0
y0与
y
0
^
\hat{y_0}
y0^独立,所以其服从均值为0,方差为
V
a
r
(
ψ
)
=
V
a
r
(
y
0
−
y
0
^
)
=
σ
2
[
1
+
1
n
+
(
x
0
−
x
ˉ
)
2
S
x
x
]
Var(\psi)=Var(y_0-\hat{y_0})=\sigma^2[1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}]
Var(ψ)=Var(y0−y0^)=σ2[1+n1+Sxx(x0−xˉ)2]的正态分布。如果使用
y
0
^
\hat{y_0}
y0^来预测
y
0
y_0
y0,那么我们再使用t分布,对于
x
0
x_0
x0处未来的观测值的
100
×
(
1
−
α
)
%
100\times (1-\alpha) \%
100×(1−α)%预测区间为
在该预测区间中,在
x
0
=
x
ˉ
x_0=\bar x
x0=xˉ处宽度最小,并且随着
∣
x
0
−
x
ˉ
∣
|x_0-\bar x|
∣x0−xˉ∣的增大而变宽,同时呢,通过对比,我们观察到
x
0
x_0
x0的预测区间总是比
x
0
x_0
x0的置信区间宽,这是因为预测区间既和来自模型拟合的误差有关,也和未来观测值的误差有关。
2.6 决定系数
统计量
R
′
=
S
S
回
S
S
总
=
1
−
S
S
残
S
S
总
R'=\frac{SS_回}{SS_总}=1-\frac{SS_残}{SS_总}
R′=SS总SS回=1−SS总SS残
称为决定系数。由于
S
S
总
SS_总
SS总是对未考虑回归变量x影响的y变异性的考量,而
S
S
残
SS_残
SS残是对考虑x后剩余的y的变异性的度量,所以
R
2
R^2
R2称为由回归变量x解释的变异性的性质,并且该变量的取值范围是[0,1]。该值越接近1,就表示大部分的y的变异性由回归模型解释。要注意的是,决定系数的大小不是回归直线斜率大小的度量。
2.7 极大似然估计
最小二乘法可以用于线性回归模型的参数估计,产生最佳线性无偏估计量,此时不对误差
ε
\varepsilon
ε的分布形式做任何的假设。最小二乘法可以产生
β
0
\beta_0
β0和
β
1
\beta_1
β1的最佳线性无偏估计量,其他统计过程,比如假设检验与置信区间构造,都假设误差服从正态分布。如果误差的分布形式已知,那么我们就可以使用另外一种参数估计方法——极大似然法
考虑数据
(
y
i
,
x
i
)
,
i
=
1
,
2
,
.
.
.
,
n
.
(y_i,x_i),i=1,2,...,n.
(yi,xi),i=1,2,...,n.假设回归模型中的误差服从
N
I
D
(
0
,
σ
2
)
NID(0,\sigma^2)
NID(0,σ2),那么样本的观测值
y
i
y_i
yi服从均值为
β
0
+
β
1
x
i
\beta_0+\beta_1x_i
β0+β1xi,方差为
σ
2
\sigma^2
σ2的正态分布,并且独立。似然函数由观测值的联合分布得到。如果考虑给定的观测值的联合分布,并且参数
β
0
,
β
1
及
σ
2
\beta_0,\beta_1及\sigma^2
β0,β1及σ2为未知参数,那么就有极大函数,对于误差服从正态分布的简单线性回归模型而言,其似然函数为:
L
(
y
i
,
x
i
,
β
0
,
β
1
,
σ
2
)
=
∏
i
=
1
n
(
2
π
σ
2
)
−
1
/
2
e
x
p
[
−
1
2
σ
2
(
y
i
−
β
0
−
β
1
x
i
)
2
]
=
(
2
π
σ
2
)
−
1
/
2
e
x
p
[
−
1
2
σ
2
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
]
L(y_i,x_i,\beta_0,\beta_1,\sigma^2)=\prod_{i=1}^n (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}(y_i-\beta_0-\beta_1x_i)^2] \\= (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2]
L(yi,xi,β0,β1,σ2)=i=1∏n(2πσ2)−1/2exp[−2σ21(yi−β0−β1xi)2]=(2πσ2)−1/2exp[−2σ21i=1∑n(yi−β0−β1xi)2]
极大似然估计量的参数值记为
β
0
~
,
β
1
~
,
σ
~
2
\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2
β0~,β1~,σ~2.最大化L或与等价的lnL为:
l
n
L
(
y
i
,
x
i
,
β
0
,
β
1
,
σ
2
)
=
−
(
n
2
)
l
n
2
π
−
(
n
2
)
l
n
σ
2
−
1
2
σ
2
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
lnL(y_i,x_i,\beta_0,\beta_1,\sigma^2)=-(\frac{n}{2})ln2\pi-(\frac{n}{2})ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2
lnL(yi,xi,β0,β1,σ2)=−(2n)ln2π−(2n)lnσ2−2σ21i=1∑n(yi−β0−β1xi)2
而,最大似然估计量
β
0
~
,
β
1
~
,
σ
~
2
\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2
β0~,β1~,σ~2必须满足:
∂
l
n
L
∂
β
0
∣
β
0
~
,
β
1
~
,
σ
~
2
=
1
σ
~
2
∑
i
=
1
n
(
y
i
−
β
0
~
−
β
1
~
x
i
)
=
0
∂
l
n
L
∂
β
1
∣
β
0
~
,
β
1
~
,
σ
~
2
=
1
σ
~
2
∑
i
=
1
n
(
y
i
−
β
0
~
−
β
1
~
x
i
)
x
i
=
0
∂
l
n
L
∂
σ
2
∣
β
0
~
,
β
1
~
,
σ
~
2
=
−
n
2
σ
~
2
+
1
2
σ
~
4
∑
i
=
1
n
(
y
i
−
β
0
~
−
β
1
~
x
i
)
2
=
0
\left.\dfrac{\partial lnL}{\partial\beta_0}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)=0\\ \left.\dfrac{\partial lnL}{\partial\beta_1}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)x_i=0\\ \left.\dfrac{\partial lnL}{\partial\sigma^2}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=-\frac{n}{2\tilde{\sigma}^2}+\frac{1}{2\tilde{\sigma}^4}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2=0\\
∂β0∂lnL∣∣∣∣β0~,β1~,σ~2=σ~21i=1∑n(yi−β0~−β1~xi)=0∂β1∂lnL∣∣∣∣β0~,β1~,σ~2=σ~21i=1∑n(yi−β0~−β1~xi)xi=0∂σ2∂lnL∣∣∣∣β0~,β1~,σ~2=−2σ~2n+2σ~41i=1∑n(yi−β0~−β1~xi)2=0
通过解上面的方程我们得到了极大似然估计量为
β
0
~
=
y
ˉ
−
β
1
~
x
ˉ
β
1
~
=
∑
i
=
1
n
y
i
(
x
i
−
x
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
σ
~
2
=
∑
i
=
1
n
(
y
i
−
β
0
~
−
β
1
~
x
i
)
2
n
\tilde{\beta_0}=\bar y-\tilde{\beta_1}\bar x \\ \tilde{\beta_1}=\frac{\sum_{i=1}^n y_i(x_i-\bar x)}{\sum_{i=1}^n(x_i-\bar x)^2}\\ \tilde{\sigma}^2=\frac{\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2}{n}
β0~=yˉ−β1~xˉβ1~=∑i=1n(xi−xˉ)2∑i=1nyi(xi−xˉ)σ~2=n∑i=1n(yi−β0~−β1~xi)2
注意,截距与斜率的极大似然估计量
β
0
~
,
β
1
~
\tilde{\beta_0},\tilde{\beta_1}
β0~,β1~都与其最小二乘估计量相同。同时
σ
~
2
\tilde{\sigma}^2
σ~2是
σ
2
\sigma^2
σ2的有偏估计量,并且有偏估计量
σ
~
2
\tilde{\sigma}^2
σ~2和无偏估计量
σ
^
2
\hat{\sigma}^2
σ^2的关系为
σ
~
2
=
[
(
n
−
1
)
/
n
]
σ
2
\tilde{\sigma}^2=[(n-1)/n]\sigma^2
σ~2=[(n−1)/n]σ2,当n为中等程度的大小时,偏倚较小。一般情况下,我们使用的都是无偏估计量
σ
^
2
\hat{\sigma}^2
σ^2
一般情况下,最大似然估计有比最小二乘法更好的统计性质。极大似然估计是无偏的,相比其他的无偏估计量,该估计量的方最小。极大似然估计是一致估计量,也是一组充分统计量。
但是另一方面呢,极大似然估计比最小二乘法估计量需要更为严格的统计假设。最小二乘估计量只需二阶矩阵假设,而最大似然估计量需要关于分布的完整假设。在这种情况下,随机误差服从正态分布,其二阶矩与最小二乘法所需要的假设相同。
总结
这大概就是线性回归的基本知识点了,如果有错误,欢迎在评论区进行指正。