统计学习理论的本质 笔记 4 控制学习过程的推广能力

本文探讨了结构风险最小化(SRM)原则在机器学习中的应用,详细讲解了如何通过控制学习过程的推广能力来优化模型。文章介绍了经验风险、置信范围的概念,以及如何在VC维较小的结构中寻找最优函数,确保模型具有良好的泛化能力。此外,还讨论了神经网络的子集结构、局部函数估计、最小描述长度原则(MDL)与SRM原则的关系,以及解决不适定问题的方法。
摘要由CSDN通过智能技术生成

4 控制学习过程的推广能力

一般认为一个数据集为小样本,当训练数与VC维的比值较小如 1 < l / h < 20 1 < l/h < 20 1<l/h<20 时。 l > h l>h l>h 的原因见3.7节。

4.1 结构风险最小化归纳原则

3.4节(或3.7节)中的情况一般可以归纳为
R ( α ) ≤ f ( R e m p ( α ) , Φ ( h ) ) R(\alpha) \le f(R_{emp}(\alpha), \Phi(h)) R(α)f(Remp(α),Φ(h))
R e m p ( α ) R_{emp}(\alpha) Remp(α) 被称为经验风险, Φ ( h ) \Phi(h) Φ(h)被称为置信范围。

设函数 Q ( z , α ) , α ∈ Λ Q(z, \alpha), \alpha \in \Lambda Q(z,α),αΛ 的集合 S S S 具有一定的结构
S 1 ⊂ S 2 ⊂ . . . ⊂ S n . . . ,    S k = { Q ( z , α ) , α ∈ Λ k ⊂ Λ } S_1 \subset S_2 \subset ... \subset S_n ..., \ \ S_k=\{Q(z, \alpha), \alpha \in \Lambda_k \subset \Lambda\} S1S2...Sn...,  Sk={Q(z,α),αΛkΛ}
结构中的元素满足性质

  1. S k S_k Sk 的VC维 h k < ∞ h_k < \infty hk< 满足 h 1 ≤ h 2 ≤ . . . ≤ h n h_1 \le h_2 \le ... \le h_n h1h2...hn, 然而 S S S 的VC维可以无限。

  2. 结构为一种容许结构,即对于任何元素 S k S_k Sk, 或者包含一个完全有界的函数集合
    0 ≤ Q ( z , α ) ≤ B k , α ∈ Λ k 0 \le Q(z, \alpha) \le B_k, \alpha \in \Lambda_k 0Q(z,α)Bk,αΛk
    或者包含对某对 ( p , τ ) (p, \tau) (p,τ) 满足
    sup ⁡ α ∈ Λ ( ∫ Q p ( z , α ) d F ( z ) ) 1 / p ∫ Q ( z , α ) d F ( z ) ≤ τ < ∞ , p > 2 \sup\limits_{\alpha \in \Lambda} \dfrac{(\int Q^p(z, \alpha)dF(z))^{1/p}}{\int Q(z, \alpha)dF(z)} \le \tau < \infty, p>2 αΛsupQ(z,α)dF(z)(Qp(z,α)dF(z))1/pτ<,p>2

    # 这里感觉熵应该和3.4节情况2和情况3相对应,那么后一种容许结构可能缺少条件 0 ≤ Q ( z , α ) , α ∈ Λ k 0 \le Q(z, \alpha), \alpha \in \Lambda_k 0Q(z,α),αΛk, 同时,为与情况2,3相对应,应当使容许结构要么为情况2要么为情况3才是,而不是“包含”。

对于一个给定观测集 z 1 , . . . , z l z_1,...,z_l z1,...,zl, 结构风险最小化(SRM)归纳原则希望能在VC维较小(置信范围较小)的 S k S_k Sk 中找到经验风险较小的函数 Q ( z , α 0 k ) Q(z, \alpha_0^k) Q(z,α0k), 这样对于3.4节中的各情况都能保证找到尽量小的 R ( α ) R(\alpha) R(α)

4.2 收敛速度的渐进分析

4.3 学习理论中的函数逼近问题

4.4 神经网络的子集结构举例

由神经网络构造所形成的结构
随着二层神经网络隐藏层的节点数目增加,VC维不断增加,形成一种结构。

由学习过程给出的结构
设固定构造的神经网络函数集合 S = { f ( x , ω ) , ω ∈ W } S=\{f(x,\omega), \omega \in W\} S={f(x,ω),ωW}, 定义结构
S k = { f ( x , ω ) , ∣ ∣ ω ∣ ∣ ≤ C p } , C 1 ≤ C 2 ≤ . . . ≤ C n S_k=\{f(x, \omega), ||\omega|| \le C_p\}, C_1 \le C_2 \le...\le C_n Sk={f(x,ω),ωCp},C1C2...Cn
经验风险最小化可以最小化泛函
E ( ω , γ p ) = 1 l ∑ i = 1 l L ( y i , f ( x i , ω ) ) + γ p ∣ ∣ ω ∣ ∣ 2 E(\omega, \gamma_p) = \dfrac{1}{l} \sum\limits_{i=1}^l L(y_i, f(x_i, \omega)) + \gamma_p ||\omega||^2 E(ω,γp)=l1i=1lL(yi,f(xi,ω))+γpω2

由预处理给出的一种结构
假设数据经过一个变换 z = K ( x , β ) z=K(x, \beta) z=K(x,β), 那么 β \beta β 的不同取值可以定义 S = { f ( z , ω ) , ω ∈ W } S=\{f(z,\omega), \omega \in W\} S={f(z,ω),ωW} 的一个结构。

4.5 局部函数估计的问题

考虑基于经验数据在某一定点 x 0 x_0 x0的领域内的最小化局部风险的模型,加入局部性参数
0 ≤ K ( x , x 0 ; β ) ≤ 1 ,    K ( x 0 , x 0 , β ) = 1 0 \le K(x,x_0;\beta) \le 1,\ \ K(x_0,x_0,\beta) = 1 0K(x,x0;β)1,  K(x0,x0,β)=1
β \beta β 用于控制领域范围,例如
K ( x , x 0 ; β ) = exp ⁡ { − β − 2 ( x − x 0 ) 2 } K(x,x_0;\beta) = \exp\{ - \beta^{-2}(x-x_0)^2\} K(x,x0;β)=exp{β2(xx0)2}
定义归一化的局部参数
ϰ ( x , x 0 , β ) = K ( x , x 0 ; β ) ∫ K ( x , x 0 ; β ) d F ( x ) \varkappa(x, x_0, \beta) = \dfrac{K(x,x_0;\beta)}{\int K(x,x_0;\beta) dF(x)} ϰ(x,x0,β)=K(x,x0;β)dF(x)K(x,x0;β)
目标转换为最小化局部风险泛函(领域加权的)
R ( α , β , ; x 0 ) = ∫ L ( y , f ( x , α ) ) ϰ ( x , x 0 , β ) d F ( x , y ) R(\alpha, \beta,; x_0) = \int L(y, f(x, \alpha)) \varkappa(x, x_0, \beta) dF(x, y) R(α,β,;x0)=L(y,f(x,α))ϰ(x,x0,β)dF(x,y)
可以得到如下定理(Vapnik and Bottou 1993)
对于所有
A ≤ L ( y , f ( x , α ) ) ≤ B ,    α ∈ Λ ,    A , B ∈ R 0 ≤ K ( x , x 0 ; β ) ≤ 1 , β ∈ ( 0 , ∞ ) A \le L(y, f(x,\alpha)) \le B, \ \ \alpha \in \Lambda, \ \ A,B \in \R \\ 0 \le K(x, x_0;\beta) \le 1, \beta \in (0, \infty) AL(y,f(x,α))B,  αΛ,  A,BR0K(x,x0;β)1,β(0,)
以下不等式以概率 1 − η 1-\eta 1η 成立
R ( α , β ; x 0 ) ≤ 1 l ∑ i = 1 l L ( y i , f ( x i , α ) ) K ( x , x 0 ; β ) + ( B − A ) ζ ( l , h Σ ) ( 1 l ∑ i = 1 l K ( x , x 0 ; β ) − ζ ( l , h β ) ) + ζ ( l , h ) = h ( ln ⁡ 2 l h + 1 ) − l n η 2 l R(\alpha, \beta; x_0) \le \dfrac{ \dfrac{1}{l}\sum\limits_{i=1}^l L(y_i, f(x_i, \alpha))K(x, x_0; \beta) + (B-A)\zeta(l, h_\Sigma) }{ (\dfrac{1}{l}\sum\limits_{i=1}^l K(x, x_0; \beta) - \zeta(l, h_\beta))_+ } \\ \zeta(l,h) = \sqrt{\dfrac{h(\ln \dfrac{2l}{h} + 1) - ln \dfrac{\eta}{2}}{l}} R(α,β;x0)(l1i=1lK(x,x0;β)ζ(l,hβ))+l1i=1lL(yi,f(xi,α))K(x,x0;β)+(BA)ζ(l,hΣ)ζ(l,h)=lh(lnh2l+1)ln2η
其中 h β h_\beta hβ 为函数集
K ( x , x 0 , β ) , β ∈ ( 0 , ∞ ) K(x, x_0, \beta), \beta \in (0, \infty) K(x,x0,β)β(0,)
的VC维, h Σ h_\Sigma hΣ 为函数集
L ( y , f ( x , α ) ) K ( x , x 0 , β ) ,    α ∈ Λ ,   β ∈ ( 0 , ∞ ) L(y, f(x, \alpha)) K(x, x_0, \beta),\ \ \alpha \in \Lambda, \ \beta \in (0, \infty) L(y,f(x,α))K(x,x0,β),  αΛ, β(0,)
的VC维。

4.6 最小描述长度原则(MDL原则)与SRM原则

4.7 解决不适定问题的方法

在计算数学和统计学的各领域中,改进方法性能的很多努力都基本上引向了同一个思想:结构风险最小化归纳原则(SRM原则)

如解决不适定问题的方法:

  1. 拟解(近似解)的方法 (Ivanov, 1962)
  2. 正则化方法(Tichonov, 1963)

非参数密度估计方法:

  1. Parzen窗(Parzen, 1962)
  2. 投影方法(CHentsov, 1963)
  3. 条件最大似然方法(Grenander, 1981)
  4. 最大惩罚似然方法(Tapia and Thompson, 1978)

回归估计方法:

  1. 岭回归(Hoerl and Kennard, 1970)
  2. 模型选择(Miller, 1990)

4.8 随机不适定问题和密度估计问题

4.9 回归的多项式逼近问题

4.10 容量控制的问题

4.11 容量控制的问题和贝叶斯推理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值