3.2(下) 最小二乘法
这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2018-08-21 |
解读 | Hytn Chen |
更新 | 2020-02-12 |
翻译原文
从简单单变量回归到多重回归
有 p > 1 p > 1 p>1 个输入的线性模型 (3.1) 称作 多重线性回归模型.用单 ( p = 1 p=1 p=1) 变量线性模型的估计能更好理解模型 ( 3.6 ) (3.6) (3.6) 的最小二乘估计,我们将在这节中指出.
首先假设我们有一个没有截距的单变量模型,也就是
Y = X β + ε (3.23) Y=X\beta + \varepsilon \tag{3.23} Y=Xβ+ε(3.23)
最小二乘估计和残差为
β ^ = ∑ 1 N x i y i ∑ 1 N x i 2 r i = y i − x i β ^ (3.24) \begin{aligned} \hat{\beta}&=\dfrac{\sum_1^Nx_iy_i}{\sum_1^Nx_i^2}\\ r_i &= y_i -x_i\hat{\beta} \end{aligned} \tag{3.24} β^ri=∑1Nxi2∑1Nxiyi=yi−xiβ^(3.24)
为了简便用向量表示,我们令 y = ( y 1 , … , y N ) T \mathbf{y}=(y_1,\ldots,y_N)^T y=(y1,…,yN)T, x = ( x 1 , … , x N ) T \mathbf{x}=(x_1,\ldots,x_N)^T x=(x1,…,xN)T,并且定义
⟨ x , y ⟩ = ∑ i = 1 N x i y i = x T y (3.25) \begin{aligned} \langle\mathbf{x},\mathbf{y}\rangle &= \sum\limits_{i=1}^Nx_iy_i\\ &=\mathbf{x^Ty}\tag{3.25} \end{aligned} ⟨x,y⟩=i=1∑Nxiyi=xTy(3.25)
x \mathbf{x} x 和 y \mathbf{y} y 之间的内积,于是我们可以写成
β ^ = ⟨ x , y ⟩ ⟨ x , x ⟩ r = y − x β ^ (3.26) \begin{aligned} \hat{\beta}&=\dfrac{\langle \mathbf{x,y}\rangle}{\langle\mathbf{x,x} \rangle}\\ \mathbf{r}&=\mathbf{y}-\mathbf{x}\hat{\beta} \end{aligned} \tag{3.26} β^r=⟨x,x⟩⟨x,y⟩=y−xβ^(3.26)
!!! note “weiya 注:原书脚注”
The inner-product notation is suggestive of generalizations of linear regression to different metric spaces, as well as to probability spaces. 内积表示是线性回归模型一般化到不同度量空间(包括概率空间)建议的方式.
正如我们所看到的,这个简单的单变量回归提供了多重线性回归的框架 (building block).进一步假设输入变量 x 1 , x 2 , … , x p \mathbf{x}_1,\mathbf{x_2,\ldots,x_p} x1,x2,…,xp(数据矩阵 X \mathbf{X} X 的列)是正交的;也就是对于所有的 j ≠ k j\neq k j=k 有 ⟨ x j , x k ⟩ = 0 \langle \rm{x}_j,\rm{x}_k\rangle=0 ⟨xj,xk⟩=0.于是很容易得到多重最小二乘估计 β ^ j \hat{\beta}_j β^j 等于 ⟨ x j , y ⟩ / ⟨ x j , x j ⟩ \langle \mathbf{x}_j,\mathbf{y}\rangle/\langle\mathbf{x}_j,\mathbf{x}_j\rangle ⟨xj,y⟩/⟨xj,xj⟩ ——单变量估计.换句话说,当输入变量为正交的,它们对模型中其它的参数估计没有影响.
正交输入变量经常发生于平衡的、设定好的实验(强制了正交),但是对于实验数据几乎不会发生.因此为了后面实施这一想法我们将要对它们进行正交化.进一步假设我们有一个截距和单输入 x \bf{x} x.则 x \bf{x} x 的最小二乘系数有如下形式
β ^ 1 = ⟨ x − x ˉ 1 , y ⟩ ⟨ x − x ˉ 1 , x − x ˉ 1 ⟩ (3.27) \hat{\beta}_1=\dfrac{\langle \mathbf{x}-\bar{x}\mathbf{1},\mathbf{y}\rangle}{\langle \mathbf{x}-\bar{x}\mathbf{1},\mathbf{x}-\bar{x}\mathbf{1}\rangle}\tag{3.27} β^1=⟨x−xˉ1,x−xˉ1⟩⟨x−xˉ1,y⟩(3.27)
其中, x ˉ = ∑ i x i / N \bar{x}=\sum_ix_i/N xˉ=∑ixi/N,且 N N N 维单位向量 1 = x 0 \mathbf{1}=x_0 1=x0.我们可以将式 ( 3.27 ) (3.27) (3.27) 的估计看成简单回归 ( 3.26 ) (3.26) (3.26) 的两次应用.这两步是:
- 在 1 \bf{1} 1 上回归 x \bf{x} x 产生残差 z = x − x ˉ 1 \mathbf{z}=\mathbf{x}-\bar{x}\mathbf{1} z=x−xˉ1;
- 在残差 z \bf{z} z 上回归 y \bf{y} y 得到系数 β ^ 1 \hat{\beta}_1 β^1
在这个过程中,“在 a \bf{a} a 上回归 b \bf{b} b”意思是 b \bf{b} b 在 a \bf{a} a 上的无截距的简单单变量回归,产生系数 γ ^ = ⟨ a , b ⟩ / ⟨ a , a ⟩ \hat{\gamma}=\langle\mathbf{a,b}\rangle/\langle\mathbf{a,a}\rangle γ^=⟨a,b⟩/⟨a,a⟩ 以及残差向量 b − γ ^ a \mathbf{b}-\hat{\gamma}\mathbf{a} b−γ^a.我们称 b \bf{b} b 由 a \bf{a} a 校正(adjusted),或者关于 a \bf{a} a 正交化.
第一步对 x \mathbf{x} x 作关于 x 0 = 1 \mathbf{x}_0=\mathbf{1} x0=1 的正交化.第二步是一个利用正交预测变量 1 \mathbf{1} 1 和 z \mathbf{z} z 简单的单变量回归.图 3.4 展示了两个一般输入 x 1 \mathbf{x}_1 x1 和 x 2 \mathbf{x}_2 x2 的过程.正交化不会改变由 x 1 \mathbf{x}_1 x1 和 x 2 \mathbf{x}_2 x2 张成的子空间,它简单地产生一个正交基来表示子空间.
正交输入的最小二乘回归.向量 x 2 \mathbf{x}_2 x2 在向量 x 1 \mathbf{x}_1 x1 上回归,得到残差向量 z \mathbf{z} z. y \mathbf{y} y 在 z \mathbf{z} z 上的回归给出 x 2 \mathbf{x}_2 x2 的系数.把 y \mathbf{y} y 在 x 1 \mathbf{x}_1 x1 和 z \mathbf{z} z 上的投影加起来给出了最小二乘拟合 y ^ \mathbf{\hat{y}} y^.
这个方法可以推广到 p p p 个输入的情形,如算法 3.1 所示.注意到第二步的输入 z _ 0 , … , z j − 1 \mathbf{z}\_0,\ldots,\mathbf{z}_{j-1} z_0,…,zj−1 是正交的,因此这里计算得到的简单回归的系数实际上是多重回归的系数.
算法 3.1 依次正交的回归(施密特正交化)
- 初始化 z 0 = x 0 = 1 \mathbf{z}_0=\mathbf{x}_0=\mathbf{1} z0=x0=1
- 对于 j = 1 , 2 , … , p j=1,2,\ldots,p j=1,2,…,p
在 z 0 , z 1 , … , z j − 1 \mathbf{z}_0,\mathbf{z}_1,\ldots,\mathbf{z}_{j-1} z