Theory of Generalization
样本外误差 E o u t E_{out} Eout测量了训练集D上学习的模型在unseen data上的泛化能力. E o u t E_{out} Eout是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的 E o u t E_{out} Eout,这些样本点必须是"unseen",没有在训练集中出现过.
对应的,样本内误差 E i n E_{in} Ein是基于训练集中的样本点,它评估模型在训练集上的表现.
Generalization error泛化误差. 泛化是学习中的一个关键问题.Generalization is a key issue in learning.泛化误差可以定义为 E i n E_{in} Ein和 E o u t E_{out} Eout两者之间的差异.Hoeffding不等式提供了一个泛化误差概率边界的描述.
P [ ∣ E i n ( g ) − E o u t ( g ) ∣ > ϵ ] ≤ 2 M e − 2 ϵ 2 N P[| E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2 N} P[∣Ein(g)−Eout(g)∣>ϵ]≤2Me−2ϵ2N for any ϵ > 0 \epsilon > 0 ϵ>0.
同时可以知道, ∣ E i n ( g ) − E o u t ( g ) ∣ ≤ ϵ |E_{in}(g)-E_{out}(g)| \leq \epsilon ∣Ein(g)−Eout(g)∣≤ϵ的概率为KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{-2N\epsilon^2,也就是说 E o u t ( g ) ≤ E i n ( g ) + ϵ E_{out}(g) \leq E_{in}(g) + \epsilon Eout(g)≤Ein(g)+ϵ,选定一个tolerance δ \delta δ,所以 δ = 2 M e − 2 N ϵ 2 \delta = 2Me^{-2N\epsilon^2} δ=2Me−2Nϵ2, ϵ = 1 2 N l n 2 M δ \epsilon = \sqrt{\frac1{2N} ln\frac{2M}{\delta}} ϵ=2N1lnδ2M,最终,
E o u t ( g ) ≤ E i n ( g ) + 1 2 N l n 2 M δ E_{out}(g) \leq E_{in}(g) + \sqrt{\frac1{2N} ln\frac{2M}{\delta}} Eout(g)≤Ein(g)+2N1lnδ2M.
这个不等式提供了一个泛化边界.
∣ E i n − E o u t ∣ ≤ ϵ |E_{in}-E_{out}| \leq \epsilon ∣Ein−Eout∣≤ϵ,同时也保证对于所有的 h ∈ H h \in H h∈H来说, E o u t ≥ E i n − ϵ E_{out} \geq E_{in} - \epsilon Eout≥Ein−ϵ.对于最终的假设函数g既想让它在unseen data上表现良好,又想它是在所有假设集中做的最好的(H中不存在其他假设函数.使得 E o u t ( h ) E_{out}(h) Eout(h)比 E o u t ( g ) E_{out}(g) Eout(g)要好.). E o u t ( h ) ≥ E i n ( h ) + ϵ E_{out}(h) \geq E_{in}(h) + \epsilon Eout(h)≥Ein(h)+ϵ这个边界确保不能做的更好了,因为选择的其他假设h对应 E i n E_{in} Ein都比g要大,因此对应的 E o u t E_{out} Eout也要比g要大,样本外表现相对变差.
误差边界 1 2 N l n 2 M δ \sqrt{\frac1{2N} ln\frac{2M}{\delta}} 2N1lnδ2M依赖于假设空间H的大小M.如果H是无限集合,那么这个边界就没有意义了(边界趋向于无限大).不幸的是,实际情况下大多数学习模型都是无限集合.
为了在无限集合H上继续讨论模型的泛化能力,我们需要对上面的式子做一些变形,想用有限的数量去代替M,这样边界就有意义了.
之前右边界M对应:
确保最终选择的函数g: ∣ E i n ( g ) − E o u t ( g ) ∣ > ϵ |E_{in}(g)-E_{out}(g)| > \epsilon ∣Ein(g)−Eout(g)∣>ϵ,因为g是H中的一个假设.将 β m \beta_m βm代表事件" ∣ E i n ( h m ) − E o u t ( h m ) ∣ > ϵ |E_{in}(h_m)-E_{out}(h_m)| > \epsilon ∣Ein(hm)−Eout(hm)∣>ϵ",因此,对应不等式变为:
但是如果各个事件之间相互重叠,那么右边界就变得比实际上大得多.比如有3个假设,不同事件的面积代表对应的事件发生的概率, β 1 , b e t a 2 , b e t a 3 \beta_1,beta_2,beta_3 β1,beta2,beta3三个事件的联合边界比3个事件对应面积小得多,尽管面积和的边界是正确的.由此推导,假设空间中如果有假设函数相差不多,就会造成大量的重叠,导致右边界比实际值大得多(放得太多!).我们需要想办法将对应的假设划分开来(归类,分成不同的类别),从而将无限的假设集变成有限的假设集.
Effective Number of Hypotheses假设空间的有效数量
介绍一个概念growth function增长函数–定义假设空间的有效数量.我们用growth function来代替上面不等式中的M,growth function是一个组合量,能度量假设空间H中假设函数之间的差异,也就是图中不同假设之间的重叠面积的大小.
对于一个2分类的目标函数,每个 h ∈ H h \in H h∈H将输入空间X映射到{-1,1}上.growth function的定义是基于假设空间H中不同假设函数的数目,而且是基于有限的样本点,而不是整个输入空间X.
一个假设函数 h ∈ H h \in H h∈H应用到有限样本集上 x 1 , x 2 , . . . , x N ∈ X x_1,x_2,...,x_N \in X x1,x2,...,xN∈X,可以得到一个二分类的N元组 h ( x 1 ) , h ( x 2 ) , . . . , h ( x N ) h(x_1), h(x_2),...,h(x_N) h(x1),h(x2),...,h(xN).N元组将N个样本集分为两类:正类,负类,这个N元组叫做dichotomy(二分)—对数据点一次结果划分.每个 h ∈ H h \in H h∈H在N个数据点上都会产生一个dichotomy,但是不同的假设函数产生的dichotomy可能完全相同.
定义一 x 1 , x 2 , . . . , x N ∈ X x_1,x_2,...,x_N \in X x1,x2,...,xN∈X,在N个数据点上,假设空间H产生的dichotomies定义为:
H ( x 1 , x 2 , . . . , x N ) = { ( h ( x 1 ) , h ( x 2 ) , . . . , h ( x N ) ) ∣ h ∈ H } H(x_1,x_2,...,x_N) = \{(h(x_1),h(x_2),...,h(x_N))|h \in H\} H(x1,x2,...,xN)={ (h(x1),h