学习笔记《统计学习基础》第三章 回归的线性方法

3.1 引言

线性回归模型假定回归函数 E ( Y ∣ X ) E(Y|X) E(YX)在输入 X 1 , X 2 , . . . , X p X_1,X_2,...,X_p X1,X2,...,Xp上是线性的。

3.2 LR and LS

输入: X = ( X 1 , X 2 , . . . X p ) X=(X_1,X_2,...X_p) X=(X1,X2,...Xp)
输出: 预 测 实 数 值 输 出 Y 预测实数值输出Y Y
模型: f ( X ) = β 0 + ∑ j = 1 p X j β j f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j f(X)=β0+j=1pXjβj

训练数据集: { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } \{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\} {(x1,y1),(x2,y2),...(xN,yN)}
任务: 通过训练数据集估计 β \beta β
x i = ( x i 1 , x i 2 , . . . , x i p ) T x_i=(x_{i1},x_{i2},...,x_{ip})^T xi=(xi1,xi2,...,xip)T是第 i i i个数据的特征向量

最小二乘:极小化残差平方和
R S S ( β ) = ∑ i = 1 N ( y i − f ( x i ) ) 2 RSS(\beta)=\sum_{i=1}^N(y_i-f(x_i))^2 RSS(β)=i=1N(yif(xi))2
= ∑ i = 1 N ( y i − β 0 − ∑ j = 1 p x i j β j ) 2 \qquad\quad\quad=\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2 =i=1N(yiβ0j=1pxijβj)2
x i = ( 1 , x i 1 , x i 2 , . . . , x i p ) T , β = ( β 0 , β 1 , . . . , β p ) T x_i=(1,x_{i1},x_{i2},...,x_{ip})^T,\beta=(\beta_0,\beta_1,...,\beta_p)^T xi=(1,xi1,xi2,...,xip)T,β=(β0,β1,...,βp)T
X X X N × ( p + 1 ) N\times(p+1) N×(p+1)矩阵
R S S ( β ) = ( y − X β ) T ( y − X β ) RSS(\beta)=(y-X\beta)^T(y-X\beta) RSS(β)=(yXβ)T(yXβ)
关于 β \beta β微分,得到
∂ R S S ( β ) ∂ β = − 2 X T ( y − X β ) = 0 \frac{\partial RSS(\beta)}{\partial\beta}=-2X^T(y-X\beta)=0 βRSS(β)=2XT(yXβ)=0
∂ 2 R S S ( β ) ∂ β ∂ β T = − 2 X T X \frac{\partial^2RSS(\beta)}{\partial\beta\partial\beta^T}=-2X^TX ββT2RSS(β)=2XTX
若X是列满秩的,则 X T X X^TX XTX是正定的
X T ( y − X β ) = 0 X^T(y-X\beta)=0 XT(yXβ)=0,解得 β ^ = ( X T X ) − 1 X T y \hat{\beta}=(X^TX)^{-1}X^Ty β^=(XTX)1XTy

在输入向量 x 0 x_0 x0上的预测值由 f ^ ( x 0 ) = ( 1 : x 0 T ) β ^ \hat{f}(x_0)=(1:x_0^T)\hat{\beta} f^(x0)=(1:x0T)β^给出
在训练输入上的拟合值为 y ^ = X β ^ = X ( X T X ) − 1 X T y \hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty y^=Xβ^=X(XTX)1XTy
其中, y i ^ = f ^ ( x i ) \hat{y_i}=\hat{f}(x_i) yi^=f^(xi)
H = X ( X T X ) − 1 X T H=X(X^TX)^{-1}X^T H=X(XTX)1XT称为帽子矩阵,因为它给 y y y加了个帽子;也可以称投影矩阵(几何意义)

注: X X X的列向量可能不是线性独立的,从而 X X X不是满秩的

增加假定:① y i y_i yi不相关,且具有常数方差 σ 2 \sigma^2 σ2;② x i x_i xi是非随机的。
V a r ( β ^ ) = ( X T X ) − 1 σ 2 Var(\hat{\beta})=(X^TX)^{-1}\sigma^2 Var(β^)=(XTX)1σ2
σ ^ 2 = 1 N − p − 1 ∑ i = 1 N ( y i − y ^ i ) 2 \hat{\sigma}^2=\frac{1}{N-p-1}\sum_{i=1}^N(y_i-\hat{y}_i)^2 σ^2=Np11i=1N(yiy^i)2

再加假定: Y = E ( Y ∣ X 1 , . . . , X p ) + ϵ Y=E(Y|X_1,...,X_p)+\epsilon Y=E(YX1,...,Xp)+ϵ
= β 0 + ∑ j = 1 p X j β j + ϵ \quad\quad\quad\quad\quad=\beta_0+\sum_{j=1}^pX_j\beta_j+\epsilon =β0+j=1pXjβj+ϵ
误差 ϵ \epsilon ϵ是高斯随机变量,期望为0,方差为 σ 2 \sigma^2 σ2,记做 ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^2) ϵN(0,σ2)

β ^ ∼ N ( β , ( X T X ) − 1 σ 2 ) \hat{\beta}\sim N(\beta,(X^TX)^{-1}\sigma^2) β^N(β,(XTX)1σ2)
( N − p − 1 ) σ ^ 2 ∼ σ 2 X N − p − 1 2 (N-p-1)\hat{\sigma}^2\sim\sigma^2\mathcal{X}^2_{N-p-1} (Np1)σ^2σ2XNp12
使用上述分布性质,可以形成参数 β j \beta_j βj的假设检验和置信区间。
H 0 : β j = 0 H_0:\beta_j=0 H0:βj=0 v . s . v.s. v.s. H 1 : β j ≠ 0 H_1:\beta_j\neq0 H1:βj=0
z j = β j ^ σ ^ v j z_j=\frac{\hat{\beta_j}}{\hat{\sigma}\sqrt{v_j}} zj=σ^vj βj^, v j v_j vj ( X T X ) − 1 (X^TX)^{-1} (XTX)1的第 j j j个对角线元素
F F F统计量: F = ( R S S 0 − R S S 1 ) / ( p 1 − p 0 ) R S S 1 / ( N − p 1 − 1 ) F=\frac{(RSS_0-RSS_1)/(p_1-p_0)}{RSS_1/(N-p_1-1)} F=RSS1/(Np11)(RSS0RSS1)/(p1p0)

3.2.1 例:前列腺癌

3.2.2 高斯-马尔科夫定理

统计学最著名的结果之一:在所有的线性无偏估计中,参数 β \beta β的最小二乘估计具有最小方差。但是限制无偏估计不一定是明智的选择。

如果 a T β a^T\beta aTβ的其他无偏估计 θ ~ = c T y \tilde{\theta}=c^Ty θ~=cTy,即 E ( c T y ) = a T β E(c^Ty)=a^T\beta E(cTy)=aTβ,则: V a r ( a T β ^ ) ≤ V a r ( c T y ) Var(a^T\hat{\beta})\le Var(c^Ty) Var(aTβ^)Var(cTy)

3.3 从简单的一元回归到多元回归

3.3.1 多元输出

3.4 子集选择和系数收缩

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值