2.8 限制性估计的种类
这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2018-08-21 |
解读 | Hytn Chen |
更新 | 2020-02-07 |
翻译原文
非参回归技巧的多样性或学习方法的类型根据其限制条件的本质可以分成不同的种类.这些种类不是完全不同的,而且确实一些方法可以归为好几种不同的类别.这里我们进行一个简短的概要,因为详细的描述将在后面章节中给出.每个类都有与之对应的一个或多个参数,有时恰当地称之为 光滑化(smoothing) 参数,这些参数控制着局部邻域的有效大小.这里我们描述三个大的类别.
粗糙度惩罚和贝叶斯方法
这是由显式的惩罚 R S S ( f ) \rm{RSS}(f) RSS(f) 以及粗糙度惩罚控制的函数类别:
P R S S ( f ; λ ) = R S S ( f ) + λ J ( f ) (2.38) \rm{PRSS}(f;\lambda)=\rm{RSS}(f)+\lambda J(f)\tag{2.38} PRSS(f;λ)=RSS(f)+λJ(f)(2.38)
对于在输入空间的小邻域变换太快的函数 f f f,用户选择的函数 J ( f ) J(f) J(f) 会变大.举个例子,著名的用于一维输入的 三次光滑样条 (cubic smoothing spline) 的是带惩罚的最小二乘的准则的解.
P R S S ( f ; λ ) = ∑ i = 1 N ( y i − f ( x i ) ) 2 + λ ∫ [ f ′ ′ ( x ) ] 2 d x (2.39) \rm{PRSS}(f;\lambda)=\sum\limits_{i=1}^N(y_i-f(x_i))^2+\lambda \int [f''(x)]^2dx \tag{2.39} PRSS(f;λ)=i=1∑N(yi−f(xi))2+λ∫[f′′(x)]2dx(2.39)
这里的粗糙惩罚控制了 f f f 的二阶微分较大的值,而且惩罚的程度由 λ ≥ 0 \lambda \ge 0 λ≥0 来决定. λ = 0 \lambda=0 λ=0 表示没有惩罚,则可以使用任意插值函数,而 λ = ∞ \lambda=\infty λ=∞ 仅仅允许关于 x x x 的线性函数.
可以在任意维数下构造惩罚函数 J J J ,而且一些特殊的版本可以用来插入特殊的结构.举个例子,可加性惩罚 J ( f ) = ∑ j = 1 p J ( f j ) J(f)=\sum_{j=1}^pJ(f_j) J(f)=∑j=1pJ(fj) 与可加性函数 f ( X ) = ∑ j = 1 p f j ( X j ) f(X)=\sum_{j=1}^pf_j(X_j) f(X)=∑j=1pfj(Xj) 联合使用去构造可加的光滑坐标函数的模型.类似地,投射寻踪回归 (regression pursuit regression) 模型有 f ( X ) = ∑ m = 1 M g m ( α m T X ) f(X)=\sum_{m=1}^Mg_m(\alpha_m^TX) f(X)=∑m=1Mgm