ESL2.4 统计判别理论学习笔记(含MSE和泛化误差详解)

2.4 统计判别理论

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2018-08-21
解读 Hytn Chen
更新 2020-01-07

翻译原文

这一节我们讨论一小部分理论,这些理论提供构建模型的一个框架,比如我们目前为止所有非正式讨论的模型.我们首先考虑定量输出时的情形,而且从随机变量和概率空间的角度来考虑.记 X ∈ I R p X\in \rm{IR}^p XIRp 为实值随机输入向量, Y ∈ I R Y\in \rm{IR} YIR 为实值随机输出变量,联合概率分布为 Pr ⁡ ( X , Y ) \Pr(X,Y) Pr(X,Y).给定输入 X X X,我们寻找一个函数 f ( X ) f(X) f(X) 来预测 Y Y Y.这个理论需要一个 损失函数 (loss function) L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)) 用来惩罚预测中的错误,到目前为止最常用并且最方便的是 平方误差损失 (squared error loss): L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2.这促使我们寻找 f f f 的一个准则——预测(平方)误差的期望 E P E ( f ) = E ( Y − f ( x ) ) 2 (2.9) EPE(f)=E(Y-f(x))^2\tag{2.9} EPE(f)=E(Yf(x))2(2.9)用积分的形式表示就是
E P E ( f ) = E ( Y − f ( X ) ) 2 = ∫ [ y − f ( x ) ] 2 Pr ⁡ ( d x , d y ) (2.10) \begin{aligned} \rm{EPE}(f)&=E(Y-f(X))^2\qquad\qquad\\ &=\int[y-f(x)]^2\Pr(dx,dy)\tag{2.10} \end{aligned} EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)(2.10)

X X X条件下,我们可以把 E P E \rm{EPE} EPE 写成

E P E ( f ) = E X E Y ∣ X ( [ Y − f ( X ) ] 2 ∣ X ) (2.11) \rm{EPE}(f) = \rm{E}_X\rm{E}_{Y\mid X}([Y-f(X)]^2\mid X)\tag{2.11} EPE(f)=EXEYX([Yf(X)]2X)(2.11)

而且我们看到使 E P E \rm{EPE} EPE 逐点最小就足够了:

f ( x ) = a r g m i n c E Y ∣ X ( [ Y − c ] 2 ∣ X = x ) (2.12) f(x) = \rm{argmin}_c\rm{E}_{Y\mid X}([Y-c]^2\mid X=x)\tag{2.12} f(x)=argmincEYX([Yc]2X=x)(2.12)

解为

f ( x ) = E ( Y ∣ X = x ) (2.13) f(x) = \rm{E}(Y\mid X=x)\tag{2.13} f(x)=E(YX=x)(2.13)

这是条件期望,也被称作 回归 (regression) 函数.因此,在任意点 X = x X=x X=x Y Y Y 的最优预测是条件均值,此处的最优是用平均平方误差来衡量的.

此处条件是指对联合概率密度分解 Pr ⁡ ( X , Y ) = Pr ⁡ ( Y ∣ X ) Pr ⁡ ( X ) \Pr(X, Y ) = \Pr(Y \mid X)\Pr(X) Pr(X,Y)=Pr(YX)Pr(X),其中 Pr ⁡ ( Y ∣ X ) = Pr ⁡ ( Y , X ) / Pr ⁡ ( X ) \Pr(Y \mid X) = \Pr(Y, X)/\Pr(X) Pr(YX)=Pr(Y,X)/Pr(X),因此分解成了双变量的积分.

最近邻方法试图直接利用训练数据完成任务.在每一点 x x x 处,我们可能需要输入变量 x i = x x_i=x xi=x 附近的所有 y i y_i yi 的均值.因为在任一点 x x x,一般至多有一个观测值,我们令

f ^ ( x ) = A v e ( y i ∣ x i ∈ N k ( x ) ) (2.14) \hat{f}(x)=\rm{Ave}(y_i\mid x_i\in N_k(x))\tag{2.14} f^(x)=Ave(yixiNk

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值