[Learning-from-data]无限假设空间的可学性以及模型泛化

本文深入探讨了机器学习中无限假设空间的可学性问题,介绍了模型泛化的理论,包括假设空间的有效数量、VC维、泛化边界以及样本复杂度。通过理论分析和定理证明,揭示了模型复杂度与泛化误差之间的关系,并解释了泛化边界的意义。学习曲线展示了随着训练样本数量增加,模型性能的变化趋势,强调了在偏差与方差之间寻找平衡的重要性。
摘要由CSDN通过智能技术生成

Theory of Generalization

样本外误差 E o u t E_{out} Eout测量了训练集D上学习的模型在unseen data上的泛化能力. E o u t E_{out} Eout是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的 E o u t E_{out} Eout,这些样本点必须是"unseen",没有在训练集中出现过.

对应的,样本内误差 E i n E_{in} Ein是基于训练集中的样本点,它评估模型在训练集上的表现.

Generalization error泛化误差. 泛化是学习中的一个关键问题.Generalization is a key issue in learning.泛化误差可以定义为 E i n E_{in} Ein E o u t E_{out} Eout两者之间的差异.Hoeffding不等式提供了一个泛化误差概率边界的描述.

P [ ∣ E i n ( g ) − E o u t ( g ) ∣ > ϵ ] ≤ 2 M e − 2 ϵ 2 N P[| E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2 N} P[Ein(g)Eout(g)>ϵ]2Me2ϵ2N for any ϵ > 0 \epsilon > 0 ϵ>0.

同时可以知道, ∣ E i n ( g ) − E o u t ( g ) ∣ ≤ ϵ |E_{in}(g)-E_{out}(g)| \leq \epsilon Ein(g)Eout(g)ϵ的概率为KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{-2N\epsilon^2,也就是说 E o u t ( g ) ≤ E i n ( g ) + ϵ E_{out}(g) \leq E_{in}(g) + \epsilon Eout(g)Ein(g)+ϵ,选定一个tolerance δ \delta δ,所以 δ = 2 M e − 2 N ϵ 2 \delta = 2Me^{-2N\epsilon^2} δ=2Me2Nϵ2, ϵ = 1 2 N l n 2 M δ \epsilon = \sqrt{\frac1{2N} ln\frac{2M}{\delta}} ϵ=2N1lnδ2M ,最终,

E o u t ( g ) ≤ E i n ( g ) + 1 2 N l n 2 M δ E_{out}(g) \leq E_{in}(g) + \sqrt{\frac1{2N} ln\frac{2M}{\delta}} Eout(g)Ein(g)+2N1lnδ2M .

这个不等式提供了一个泛化边界.

∣ E i n − E o u t ∣ ≤ ϵ |E_{in}-E_{out}| \leq \epsilon EinEoutϵ,同时也保证对于所有的 h ∈ H h \in H hH来说, E o u t ≥ E i n − ϵ E_{out} \geq E_{in} - \epsilon EoutEinϵ.对于最终的假设函数g既想让它在unseen data上表现良好,又想它是在所有假设集中做的最好的(H中不存在其他假设函数.使得 E o u t ( h ) E_{out}(h) Eout(h) E o u t ( g ) E_{out}(g) Eout(g)要好.). E o u t ( h ) ≥ E i n ( h ) + ϵ E_{out}(h) \geq E_{in}(h) + \epsilon Eout(h)Ein(h)+ϵ这个边界确保不能做的更好了,因为选择的其他假设h对应 E i n E_{in} Ein都比g要大,因此对应的 E o u t E_{out} Eout也要比g要大,样本外表现相对变差.

误差边界 1 2 N l n 2 M δ \sqrt{\frac1{2N} ln\frac{2M}{\delta}} 2N1lnδ2M 依赖于假设空间H的大小M.如果H是无限集合,那么这个边界就没有意义了(边界趋向于无限大).不幸的是,实际情况下大多数学习模型都是无限集合.

为了在无限集合H上继续讨论模型的泛化能力,我们需要对上面的式子做一些变形,想用有限的数量去代替M,这样边界就有意义了.

之前右边界M对应:

确保最终选择的函数g: ∣ E i n ( g ) − E o u t ( g ) ∣ > ϵ |E_{in}(g)-E_{out}(g)| > \epsilon Ein(g)Eout(g)>ϵ,因为g是H中的一个假设.将 β m \beta_m βm代表事件" ∣ E i n ( h m ) − E o u t ( h m ) ∣ > ϵ |E_{in}(h_m)-E_{out}(h_m)| > \epsilon Ein(hm)Eout(hm)>ϵ",因此,对应不等式变为:

但是如果各个事件之间相互重叠,那么右边界就变得比实际上大得多.比如有3个假设,不同事件的面积代表对应的事件发生的概率, β 1 , b e t a 2 , b e t a 3 \beta_1,beta_2,beta_3 β1,beta2,beta3三个事件的联合边界比3个事件对应面积小得多,尽管面积和的边界是正确的.由此推导,假设空间中如果有假设函数相差不多,就会造成大量的重叠,导致右边界比实际值大得多(放得太多!).我们需要想办法将对应的假设划分开来(归类,分成不同的类别),从而将无限的假设集变成有限的假设集.

Effective Number of Hypotheses假设空间的有效数量

介绍一个概念growth function增长函数–定义假设空间的有效数量.我们用growth function来代替上面不等式中的M,growth function是一个组合量,能度量假设空间H中假设函数之间的差异,也就是图中不同假设之间的重叠面积的大小.

对于一个2分类的目标函数,每个 h ∈ H h \in H hH将输入空间X映射到{-1,1}上.growth function的定义是基于假设空间H中不同假设函数的数目,而且是基于有限的样本点,而不是整个输入空间X.
一个假设函数 h ∈ H h \in H hH应用到有限样本集上 x 1 , x 2 , . . . , x N ∈ X x_1,x_2,...,x_N \in X x1,x2,...,xNX,可以得到一个二分类的N元组 h ( x 1 ) , h ( x 2 ) , . . . , h ( x N ) h(x_1), h(x_2),...,h(x_N) h(x1),h(x2),...,h(xN).N元组将N个样本集分为两类:正类,负类,这个N元组叫做dichotomy(二分)—对数据点一次结果划分.每个 h ∈ H h \in H hH在N个数据点上都会产生一个dichotomy,但是不同的假设函数产生的dichotomy可能完全相同.

定义一 x 1 , x 2 , . . . , x N ∈ X x_1,x_2,...,x_N \in X x1,x2,...,xNX,在N个数据点上,假设空间H产生的dichotomies定义为:

H ( x 1 , x 2 , . . . , x N ) = { ( h ( x 1 ) , h ( x 2 ) , . . . , h ( x N ) ) ∣ h ∈ H } H(x_1,x_2,...,x_N) = \{(h(x_1),h(x_2),...,h(x_N))|h \in H\} H(x1,x2,...,xN)={ (h(x1),h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值