2.6 统计模型,监督学习和函数逼近
这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2018-08-21 |
解读 | Hytn Chen |
更新 | 2020-02-06 |
翻译原文
我们的目标是寻找函数 f ( x ) f(x) f(x) 的一个有用的近似 f ^ ( x ) \hat{f}(x) f^(x),函数 f ( x ) f(x) f(x) 蕴含着输入与输出之间的预测关系.在前面统计判别理论的章节的理论准备中,对于定量的响应,我们看到平方误差损失引导我们得到了回归函数 f ( X ) = E ( Y ∣ X = x ) f(X)=\rm{E}(Y\mid X=x) f(X)=E(Y∣X=x).最近邻方法可以看成是对条件期望的直接估计(Hytn注:可参考ESL2.4高亮标出的两个近似),但是我们可以看到至少在两个方面它们不起作用
- 如果输入空间的维数高,则最近邻不必离目标点近,而且可能导致大的误差
- 如果知道存在特殊的结构,可以用来降低估计的偏差与方差.
我们预先用了关于 f ( X ) f(X) f(X) 的其它类别的模型,在很多情形下是为了解决维数问题而特别设计的,现在我们讨论把它们合并进一个预测问题的框架.
联合分布 Pr ( X , Y ) \Pr(X,Y) Pr(X,Y) 的统计模型
假设事实上我们的数据是从统计模型
Y = f ( X ) + ε (2.29) Y=f(X)+\varepsilon\tag{2.29} Y=f(X)+ε(2.29)
中产生的,其中随机误差 ε \varepsilon ε 满足 E ( ε ) = 0 \rm{E}(\varepsilon)=0 E(ε)=0 且与 X X X 独立.注意到这个模型 f ( x ) = E ( Y ∣ X = x ) f(x)=\rm{E}(Y\mid X=x) f(x)=E(Y∣X=x),而且事实上条件分布 Pr ( Y ∣ X ) \Pr(Y\mid X) Pr(Y∣X) 只通过条件均值 f ( X ) f(X) f(X) 依赖于 X X X.
可加误差模型是一个对真实情况的有用近似.对于大多数系统输入输出对 ( X , Y ) (X,Y) (X,Y) 没有一个确定的关系 Y = f ( X ) Y=f(X) Y=f(X).一般地,存在不可测量的变量对 Y Y Y 起作用,包括测量误差.该可加误差模型假设我们可以通过误差 ε \varepsilon ε 从确定关系中捕捉所有的偏移量.
对于有些问题确实存在一个确定的关系.许多在机器学习中讨论的分类问题都是这个形式,其中,响应曲面 (response surface) 可以认为是定义在 I R p \rm{IR}^p IRp 中的着色映射.这些训练数据由映射 x i , g i \\{x_i,g_i\\} xi,gi 中的彩色样本构成,我们的目标是对每一点着色.这里函数是确定的,并且随机量体现在训练数据的位置 x x x 上.现在我们不去追究这个问题,但是将会看到这个可以通过合适的基于误差的模型技巧解决.
式 ( 2.29 ) (2.29) (2.29)并不严格需要误差是独立同分布这一假设,但是当我们在 EPE 准则下均匀地对平方误差进行平均时这个假设似乎出现在我们脑海后面.正如在式 ( 2.1 ) (2.1) (2.1) 一样,对于这样的一个模型,用最小二乘作为模型估计的数据准则变得很自然.
!!! note “weiya 注: Recall”
Y ^ = β ^ 0 + ∑ j = 1 p X j β ^ j (2.1) \hat{Y} = \hat{\beta}_0+\sum\limits_{j=1}^{p}X_j\hat{\beta}_j \tag{2.1} Y^=β^0+j=1∑pXjβ