2.4 统计判别理论
这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2018-08-21 |
解读 | Hytn Chen |
更新 | 2020-01-07 |
翻译原文
这一节我们讨论一小部分理论,这些理论提供构建模型的一个框架,比如我们目前为止所有非正式讨论的模型.我们首先考虑定量输出时的情形,而且从随机变量和概率空间的角度来考虑.记 X ∈ I R p X\in \rm{IR}^p X∈IRp 为实值随机输入向量, Y ∈ I R Y\in \rm{IR} Y∈IR 为实值随机输出变量,联合概率分布为 Pr ( X , Y ) \Pr(X,Y) Pr(X,Y).给定输入 X X X,我们寻找一个函数 f ( X ) f(X) f(X) 来预测 Y Y Y.这个理论需要一个 损失函数 (loss function) L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)) 用来惩罚预测中的错误,到目前为止最常用并且最方便的是 平方误差损失 (squared error loss): L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2.这促使我们寻找 f f f 的一个准则——预测(平方)误差的期望 E P E ( f ) = E ( Y − f ( x ) ) 2 (2.9) EPE(f)=E(Y-f(x))^2\tag{2.9} EPE(f)=E(Y−f(x))2(2.9)用积分的形式表示就是
E P E ( f ) = E ( Y − f ( X ) ) 2 = ∫ [ y − f ( x ) ] 2 Pr ( d x , d y ) (2.10) \begin{aligned} \rm{EPE}(f)&=E(Y-f(X))^2\qquad\qquad\\ &=\int[y-f(x)]^2\Pr(dx,dy)\tag{2.10} \end{aligned} EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)(2.10)
在 X X X 的条件下,我们可以把 E P E \rm{EPE} EPE 写成
E P E ( f ) = E X E Y ∣ X ( [ Y − f ( X ) ] 2 ∣ X ) (2.11) \rm{EPE}(f) = \rm{E}_X\rm{E}_{Y\mid X}([Y-f(X)]^2\mid X)\tag{2.11} EPE(f)=EXEY∣X([Y−f(X)]2∣X)(2.11)
而且我们看到使 E P E \rm{EPE} EPE 逐点最小就足够了:
f ( x ) = a r g m i n c E Y ∣ X ( [ Y − c ] 2 ∣ X = x ) (2.12) f(x) = \rm{argmin}_c\rm{E}_{Y\mid X}([Y-c]^2\mid X=x)\tag{2.12} f(x)=argmincEY∣X([Y−c]2∣X=x)(2.12)
解为
f ( x ) = E ( Y ∣ X = x ) (2.13) f(x) = \rm{E}(Y\mid X=x)\tag{2.13} f(x)=E(Y∣X=x)(2.13)
这是条件期望,也被称作 回归 (regression) 函数.因此,在任意点 X = x X=x X=x 时 Y Y Y 的最优预测是条件均值,此处的最优是用平均平方误差来衡量的.
此处条件是指对联合概率密度分解 Pr ( X , Y ) = Pr ( Y ∣ X ) Pr ( X ) \Pr(X, Y ) = \Pr(Y \mid X)\Pr(X) Pr(X,Y)=Pr(Y∣X)Pr(X),其中 Pr ( Y ∣ X ) = Pr ( Y , X ) / Pr ( X ) \Pr(Y \mid X) = \Pr(Y, X)/\Pr(X) Pr(Y∣X)=Pr(Y,X)/Pr(X),因此分解成了双变量的积分.
最近邻方法试图直接利用训练数据完成任务.在每一点 x x x 处,我们可能需要输入变量 x i = x x_i=x xi=x 附近的所有 y i y_i yi 的均值.因为在任一点 x x x,一般至多有一个观测值,我们令
f ^ ( x ) = A v e ( y i ∣ x i ∈ N k ( x ) ) (2.14) \hat{f}(x)=\rm{Ave}(y_i\mid x_i\in N_k(x))\tag{2.14} f^(x)=Ave(yi∣xi∈Nk