(《机器学习》完整版系列)第12章 计算学习理论——12.3 有限假设空间可分情形(剔除“过拟合”需要足够多的样本)

当假设空间H是有限的时候,如果学习算法L的运行成本是遍历H的多项式时间,那么L是否为PAC学习算法取决于样本数m是否为多项式。在可分情况下,通过分析误差为0的假设集合H_D,可以推导出当m满足一定多项式关系时,存在有效解且泛化误差接近0。这表明有限且可分的假设空间H是PAC可学习的,且泛化误差随着样本数增加而收敛于0。
摘要由CSDN通过智能技术生成

当假设空间 H \mathcal{H} H是有限时,学习算法 L \mathfrak{L} L运行成本至多为遍历有限的 H \mathcal{H} H,当然是多项式的,那么,算法 L \mathfrak{L} L是否为PAC学习算法就看它所需要的样本数 m m m是否是多项式的了,我们分两种情况讨论 m m m:(本篇)有限假设空间可分情形和(下篇)有限假设空间不可分情形。
在有限假设空间且可分情形下,直观来看:最好在 H D \mathcal{H}_D HD中寻找需要的 h h h。 而 H D \mathcal{H}_D HD中许多 h h h是“过拟合”的(“过拟合”的极端是全完拟合:虽然在数据集 D D D上误差为0,但它的泛化误差大),剔除这些“过拟合”的假设后,其任一假设 h h h都是有效解,而剔除“过拟合”需要足够的样本数量。

可分情形

在可分(即 c ∈ H c \in \mathcal{H} cH,参见12.1 概念类与假设空间的关系图12.2 所示)的条件下,【西瓜书p.270-271】给出的简单学习策略:取数据集 D D D上误差为0的假设 h h h(注:本章的采样不考虑噪音等,即数据集中无矛盾数据,因而可以实现误差为0)。 但问题在于这样的假设不是唯一的,设它们组成假设空间的子空间 H D \mathcal{H}_D HD,直观来看:最好在 H D \mathcal{H}_D HD中寻找需要的 h h h。 而 H D \mathcal{H}_D HD中许多 h h h是“过拟合”的(即虽然在数据集 D D D上误差为0,但它的泛化误差大),剔除这些“过拟合”的假设后,其任一假设 h h h都是有效解,而剔除“过拟合”需要足够的样本数量。

(1)若 E ( h ) > ϵ E(h)>\epsilon E(h)>ϵ,则 E ^ ( h ) = 0 \hat E(h)=0 E^(h)=0为小概率事件

H \mathcal{H} H中所有满足泛化误差 E ( h ) > ϵ E(h)>\epsilon E(h)>ϵ h h h组成 H 0 \mathcal{H}_0 H0,【西瓜书式(12.10)(12.11)】论证了这样一个结论:若 h ∈ H 0 h\in \mathcal{H}_0 hH0,则 h h h的经验误差为0的概率上界为
P ( E ^ ( h ) = 0 ) < ( 1 − ϵ ) m \begin{align} P(\hat E(h)=0)<(1-\epsilon)^m \tag{12.5} \end{align} P(E^(h)=0)<(1ϵ)m(12.5)
其中, E ^ ( h ) \hat E(h) E^(h)是由【西瓜书式(12.2)】定义的经验误差, m = ∣ D ∣ m=|D| m=D

H 0 \mathcal{H}_0 H0 H \mathcal{H} H的子集,即它有限,设 H 0 = { h i } i = 1 n 0 \mathcal{H}_0=\{h_i\}_{i=1}^{n_0} H0={hi}i=1n0,则
P ( ∀ h ∈ H : E ( h ) > ϵ ∧ E ^ ( h ) = 0 ) = P ( ∀ h ∈ H 0 : E ^ ( h ) = 0 ) = P ( E ^ ( h 1 ) = 0 ∨ E ^ ( h 2 ) = 0 ∨ ⋯ ∨ E ^ ( h n 0 ) = 0 ) ⩽ ∑ h i ∈ H 0 P ( E ^ ( h i ) = 0 ) < ∣ H 0 ∣ ( 1 − ϵ ) m (由式(12.5)) ⩽ ∣ H ∣ ( 1 − ϵ ) m \begin{align} & \quad P(\forall h \in \mathcal{H}:E(h)>\epsilon\wedge \hat E(h)=0)\notag \\ & =P(\forall h \in \mathcal{H}_0:\hat E(h)=0)\notag \\ & =P(\hat E(h_1)=0\vee \hat E(h_2)=0\vee\cdots \vee \hat E(h_{n_0})=0)\notag \\ & \leqslant \sum_{h_i\in \mathcal{H}_0 }P(\hat E(h_i)=0)\notag \\ & <|\mathcal{H}_0|(1-\epsilon)^m\qquad \text{(由式(12.5))}\notag \\ & \leqslant|\mathcal{H}|(1-\epsilon)^m \tag{12.6} \end{align} P(hH:E(h)>ϵE^(h)=0)=P(hH0:E^(h)=0)=P(E^(h1)=0E^(h2)=0E^(hn0)=0)hiH0P(E^(hi)=0)<H0(1ϵ)m(由式(12.5)H(1ϵ)m(12.6)

(2)若 E ^ ( h ) = 0 \hat E(h)=0 E^(h)=0,则 E ( h ) ≈ 0 E(h)\approx 0 E(h)0很可能

H \mathcal{H} H中所有满足经验误差 E ^ ( h ) = 0 \hat E(h)=0 E^(h)=0 h h h组成 H D \mathcal{H}_D HD(因 c ∈ H c \in \mathcal{H} cH,故 H D \mathcal{H}_D HD非空),则
P ( ∃ h ∈ H D : E ( h ) ⩽ ϵ ) = 1 − P ( ∀ h ∈ H D : E ( h ) > ϵ ) = 1 − P ( ∀ h ∈ H D : E ( h ) > ϵ ∧ E ^ ( h ) = 0 ) (由 H 定义) ⩾ 1 − P ( ∀ h ∈ H : E ( h ) > ϵ ∧ E ^ ( h ) = 0 ) (范围变大) > 1 − ∣ H ∣ ( 1 − ϵ ) m (由式(12.6)) \begin{align} P(\exists h \in \mathcal{H}_D:E(h)\leqslant \epsilon) & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon)\notag \\ & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{(由$\mathcal{H}$定义)}\notag \\ & \geqslant 1-P(\forall h \in \mathcal{H}:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{(范围变大)}\notag \\ & >1-|\mathcal{H}|(1-\epsilon)^m\qquad \text{(由式(12.6))} \tag{12.7} \end{align} P(hHD:E(h)ϵ)=1P(hHD:E(h)>ϵ)=1P(hHD:E(h)>ϵE^(h)=0)(由H定义)1P(hH:E(h)>ϵE^(h)=0)(范围变大)>1H(1ϵ)m(由式(12.6)(12.7)

由若式(12.7)知:要使式(12.2)成立,只需
1 − ∣ H ∣ ( 1 − ϵ ) m ⩾ 1 − δ \begin{align} 1-|\mathcal{H}| (1-\epsilon)^m\geqslant 1-\delta \tag{12.8} \end{align} 1H(1ϵ)m1δ(12.8)
显然有解,这时“几乎” E ( h ) ≈ 0 E(h)\approx 0 E(h)0

(3)有限假设空间 H \mathcal{H} H都是PAC可学习的

从不等式(12.8)中解出 m m m,即【西瓜书式(12.14)】,它是式(12.2)成立所需的样本数,显然,这个所需的样本数不超过某个式(12.4)型的多项式,即有限假设空间 H \mathcal{H} H都是PAC可学习的。

又由【西瓜书式(12.14)】可能得到式(12.2)中泛化误差上界 ϵ \epsilon ϵ满足
ϵ ⩾ 1 m ( ln ⁡ ∣ H ∣ + ln ⁡ 1 δ ) → 0   ( 若  m → + ∞ ) \begin{align} \epsilon & \geqslant \frac{1}{m}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})\notag \\ & \to 0 \, (\text{若} \ m \to +\infty ) \tag{12.9} \end{align} ϵm1(lnH+lnδ1)0( m+)(12.9)
即给定 δ \delta δ,则 ϵ \epsilon ϵ收敛于0,且收敛速度为 O ( 1 m ) O(\frac{1}{m}) O(m1)

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:12.2 学习算法的能力(多项式成本是可以接受的,而指数成本是不可接受的)
下一篇:12.4 有限假设空间不可分情形

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值