ESL2.4 统计判别理论学习笔记(含MSE和泛化误差详解)

这篇博客是关于《统计学习基础》中2.4节的学习笔记,重点介绍了统计判别理论,特别是平方误差损失(MSE)和泛化误差的概念。博主通过翻译原文和个人解读探讨了平方误差损失在预测模型中的应用,如回归函数和条件期望,并讨论了k-最近邻方法和线性回归如何适应这个框架。此外,还提到了0-1损失函数在分类问题中的使用,以及贝叶斯分类器的基本思想。
摘要由CSDN通过智能技术生成

2.4 统计判别理论

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2018-08-21
解读 Hytn Chen
更新 2020-01-07

翻译原文

这一节我们讨论一小部分理论,这些理论提供构建模型的一个框架,比如我们目前为止所有非正式讨论的模型.我们首先考虑定量输出时的情形,而且从随机变量和概率空间的角度来考虑.记 X ∈ I R p X\in \rm{IR}^p XIRp 为实值随机输入向量, Y ∈ I R Y\in \rm{IR} YIR 为实值随机输出变量,联合概率分布为 Pr ⁡ ( X , Y ) \Pr(X,Y) Pr(X,Y).给定输入 X X X,我们寻找一个函数 f ( X ) f(X) f(X) 来预测 Y Y Y.这个理论需要一个 损失函数 (loss function) L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)) 用来惩罚预测中的错误,到目前为止最常用并且最方便的是 平方误差损失 (squared error loss): L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2.这促使我们寻找 f f f 的一个准则——预测(平方)误差的期望 E P E ( f ) = E ( Y − f ( x ) ) 2 (2.9) EPE(f)=E(Y-f(x))^2\tag{2.9} EPE(f)=E(Yf(x))2(2.9)用积分的形式表示就是
E P E ( f ) = E ( Y − f ( X ) ) 2 = ∫ [ y − f ( x ) ] 2 Pr ⁡ ( d x , d y ) (2.10) \begin{aligned} \rm{EPE}(f)&=E(Y-f(X))^2\qquad\qquad\\ &=\int[y-f(x)]^2\Pr(dx,dy)\tag{2.10} \end{aligned} EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)(2.10)

X X X条件下,我们可以把 E P E \rm{EPE} EPE 写成

E P E ( f ) = E X E Y ∣ X ( [ Y − f ( X ) ] 2 ∣ X ) (2.11) \rm{EPE}(f) = \rm{E}_X\rm{E}_{Y\mid X}([Y-f(X)]^2\mid X)\tag{2.11} EPE(f)=EXEYX([Yf(X)]2X)(2.11)

而且我们看到使 E P E \rm{EPE} EPE 逐点最小就足够了:

f ( x ) = a r g m i n c E Y ∣ X ( [ Y − c ] 2 ∣ X = x ) (2.12) f(x) = \rm{argmin}_c\rm{E}_{Y\mid X}([Y-c]^2\mid X=x)\tag{2.12} f(x)=argmincEYX([Yc]2X=x)(2.12)

解为

f ( x ) = E ( Y ∣ X = x ) (2.13) f(x) = \rm{E}(Y\mid X=x)\tag{2.13} f(x)=E(YX=x)(2.13)

这是条件期望,也被称作 回归 (regression) 函数.因此,在任意点 X = x X=x X=x Y Y Y 的最优预测是条件均值,此处的最优是用平均平方误差来衡量的.

此处条件是指对联合概率密度分解 Pr ⁡ ( X , Y ) = Pr ⁡ ( Y ∣ X ) Pr ⁡ ( X ) \Pr(X, Y ) = \Pr(Y \mid X)\Pr(X) Pr(X,Y)=Pr(YX)Pr(X),其中 Pr ⁡ ( Y ∣ X ) = Pr ⁡ ( Y , X ) / Pr ⁡ ( X ) \Pr(Y \mid X) = \Pr(Y, X)/\Pr(X) Pr(YX)=Pr(Y,X)/Pr(X),因此分解成了双变量的积分.

最近邻方法试图直接利用训练数据完成任务.在每一点 x x x 处,我们可能需要输入变量 x i = x x_i=x xi=x 附近的所有 y i y_i yi 的均值.因为在任一点 x x x,一般至多有一个观测值,我们令

f ^ ( x ) = A v e ( y i ∣ x i ∈ N k ( x ) ) (2.14) \hat{f}(x)=\rm{Ave}(y_i\mid x_i\in N_k(x))\tag{2.14} f^(x)=Ave(yixiNk

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值