第三章 回归的线性方法
3.1 引言
线性回归模型假定回归函数 E ( Y ∣ X ) E(Y|X) E(Y∣X)在输入 X 1 , X 2 , . . . , X p X_1,X_2,...,X_p X1,X2,...,Xp上是线性的。
3.2 LR and LS
输入:
X
=
(
X
1
,
X
2
,
.
.
.
X
p
)
X=(X_1,X_2,...X_p)
X=(X1,X2,...Xp)
输出:
预
测
实
数
值
输
出
Y
预测实数值输出Y
预测实数值输出Y
模型:
f
(
X
)
=
β
0
+
∑
j
=
1
p
X
j
β
j
f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j
f(X)=β0+∑j=1pXjβj
训练数据集:
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
N
,
y
N
)
}
\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}
{(x1,y1),(x2,y2),...(xN,yN)}
任务: 通过训练数据集估计
β
\beta
β
x
i
=
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
p
)
T
x_i=(x_{i1},x_{i2},...,x_{ip})^T
xi=(xi1,xi2,...,xip)T是第
i
i
i个数据的特征向量
最小二乘:极小化残差平方和
R
S
S
(
β
)
=
∑
i
=
1
N
(
y
i
−
f
(
x
i
)
)
2
RSS(\beta)=\sum_{i=1}^N(y_i-f(x_i))^2
RSS(β)=∑i=1N(yi−f(xi))2
=
∑
i
=
1
N
(
y
i
−
β
0
−
∑
j
=
1
p
x
i
j
β
j
)
2
\qquad\quad\quad=\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2
=∑i=1N(yi−β0−∑j=1pxijβj)2
记
x
i
=
(
1
,
x
i
1
,
x
i
2
,
.
.
.
,
x
i
p
)
T
,
β
=
(
β
0
,
β
1
,
.
.
.
,
β
p
)
T
x_i=(1,x_{i1},x_{i2},...,x_{ip})^T,\beta=(\beta_0,\beta_1,...,\beta_p)^T
xi=(1,xi1,xi2,...,xip)T,β=(β0,β1,...,βp)T
X
X
X为
N
×
(
p
+
1
)
N\times(p+1)
N×(p+1)矩阵
则
R
S
S
(
β
)
=
(
y
−
X
β
)
T
(
y
−
X
β
)
RSS(\beta)=(y-X\beta)^T(y-X\beta)
RSS(β)=(y−Xβ)T(y−Xβ)
关于
β
\beta
β微分,得到
∂
R
S
S
(
β
)
∂
β
=
−
2
X
T
(
y
−
X
β
)
=
0
\frac{\partial RSS(\beta)}{\partial\beta}=-2X^T(y-X\beta)=0
∂β∂RSS(β)=−2XT(y−Xβ)=0
∂
2
R
S
S
(
β
)
∂
β
∂
β
T
=
−
2
X
T
X
\frac{\partial^2RSS(\beta)}{\partial\beta\partial\beta^T}=-2X^TX
∂β∂βT∂2RSS(β)=−2XTX
若X是列满秩的,则
X
T
X
X^TX
XTX是正定的
故
X
T
(
y
−
X
β
)
=
0
X^T(y-X\beta)=0
XT(y−Xβ)=0,解得
β
^
=
(
X
T
X
)
−
1
X
T
y
\hat{\beta}=(X^TX)^{-1}X^Ty
β^=(XTX)−1XTy
在输入向量
x
0
x_0
x0上的预测值由
f
^
(
x
0
)
=
(
1
:
x
0
T
)
β
^
\hat{f}(x_0)=(1:x_0^T)\hat{\beta}
f^(x0)=(1:x0T)β^给出
在训练输入上的拟合值为
y
^
=
X
β
^
=
X
(
X
T
X
)
−
1
X
T
y
\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty
y^=Xβ^=X(XTX)−1XTy
其中,
y
i
^
=
f
^
(
x
i
)
\hat{y_i}=\hat{f}(x_i)
yi^=f^(xi)
H
=
X
(
X
T
X
)
−
1
X
T
H=X(X^TX)^{-1}X^T
H=X(XTX)−1XT称为帽子矩阵,因为它给
y
y
y加了个帽子;也可以称投影矩阵(几何意义)
注: X X X的列向量可能不是线性独立的,从而 X X X不是满秩的
增加假定:①
y
i
y_i
yi不相关,且具有常数方差
σ
2
\sigma^2
σ2;②
x
i
x_i
xi是非随机的。
V
a
r
(
β
^
)
=
(
X
T
X
)
−
1
σ
2
Var(\hat{\beta})=(X^TX)^{-1}\sigma^2
Var(β^)=(XTX)−1σ2
σ
^
2
=
1
N
−
p
−
1
∑
i
=
1
N
(
y
i
−
y
^
i
)
2
\hat{\sigma}^2=\frac{1}{N-p-1}\sum_{i=1}^N(y_i-\hat{y}_i)^2
σ^2=N−p−11∑i=1N(yi−y^i)2
再加假定:
Y
=
E
(
Y
∣
X
1
,
.
.
.
,
X
p
)
+
ϵ
Y=E(Y|X_1,...,X_p)+\epsilon
Y=E(Y∣X1,...,Xp)+ϵ
=
β
0
+
∑
j
=
1
p
X
j
β
j
+
ϵ
\quad\quad\quad\quad\quad=\beta_0+\sum_{j=1}^pX_j\beta_j+\epsilon
=β0+∑j=1pXjβj+ϵ
误差
ϵ
\epsilon
ϵ是高斯随机变量,期望为0,方差为
σ
2
\sigma^2
σ2,记做
ϵ
∼
N
(
0
,
σ
2
)
\epsilon\sim N(0,\sigma^2)
ϵ∼N(0,σ2)
β
^
∼
N
(
β
,
(
X
T
X
)
−
1
σ
2
)
\hat{\beta}\sim N(\beta,(X^TX)^{-1}\sigma^2)
β^∼N(β,(XTX)−1σ2)
(
N
−
p
−
1
)
σ
^
2
∼
σ
2
X
N
−
p
−
1
2
(N-p-1)\hat{\sigma}^2\sim\sigma^2\mathcal{X}^2_{N-p-1}
(N−p−1)σ^2∼σ2XN−p−12
使用上述分布性质,可以形成参数
β
j
\beta_j
βj的假设检验和置信区间。
H
0
:
β
j
=
0
H_0:\beta_j=0
H0:βj=0
v
.
s
.
v.s.
v.s.
H
1
:
β
j
≠
0
H_1:\beta_j\neq0
H1:βj=0
z
j
=
β
j
^
σ
^
v
j
z_j=\frac{\hat{\beta_j}}{\hat{\sigma}\sqrt{v_j}}
zj=σ^vjβj^,
v
j
v_j
vj是
(
X
T
X
)
−
1
(X^TX)^{-1}
(XTX)−1的第
j
j
j个对角线元素
F
F
F统计量:
F
=
(
R
S
S
0
−
R
S
S
1
)
/
(
p
1
−
p
0
)
R
S
S
1
/
(
N
−
p
1
−
1
)
F=\frac{(RSS_0-RSS_1)/(p_1-p_0)}{RSS_1/(N-p_1-1)}
F=RSS1/(N−p1−1)(RSS0−RSS1)/(p1−p0)
3.2.1 例:前列腺癌
3.2.2 高斯-马尔科夫定理
统计学最著名的结果之一:在所有的线性无偏估计中,参数 β \beta β的最小二乘估计具有最小方差。但是限制无偏估计不一定是明智的选择。
如果 a T β a^T\beta aTβ的其他无偏估计 θ ~ = c T y \tilde{\theta}=c^Ty θ~=cTy,即 E ( c T y ) = a T β E(c^Ty)=a^T\beta E(cTy)=aTβ,则: V a r ( a T β ^ ) ≤ V a r ( c T y ) Var(a^T\hat{\beta})\le Var(c^Ty) Var(aTβ^)≤Var(cTy)