(《机器学习》完整版系列)第12章 计算学习理论——12.5 无限假设空间(特殊的“无限”:若“打散”产生的的VC维有限)

若样本集 D D D能被 H \mathcal{H} H“打散”,简记:表12.1 中的行被 H \mathcal{H} H划掉称为“对分”,表12.1 被 H \mathcal{H} H划掉称为“打散”。
H \mathcal{H} H能“打散”的最大表(最大 m m m)称为 H \mathcal{H} H的VC维,
可证明任何VC维有限的假设空间 H \mathcal{H} H都是(不可知)PAC可学习的。

无限假设空间

对于“无限”常常是束手无策,但我们可考虑某些特殊的“无限”,即含有某种“有限”,如“VC维”。

给定样本集 D = { x i } i = 1 m D=\{\boldsymbol{x}_i\}_{i=1}^m D={xi}i=1m,对于二分类 D D D的所有可能的标记(不是指真实标记),有 2 m 2^m 2m种情况,见表12.1 。

其中,每一行表示一种分类的可能,将该行标记形成的二进制数转换成十进制作为行编号。

给定假设空间 H \mathcal{H} H,设 h 1 ∈ H h_1\in \mathcal{H} h1H,将其作用于 D D D的所有样本
h 1 ( D ) = ( h 1 ( x 1 ) , h 1 ( x 2 ) , ⋯   , h 1 ( x m ) ) \begin{align} h_1(D)=(h_1(\boldsymbol{x}_1),h_1(\boldsymbol{x}_2),\cdots,h_1(\boldsymbol{x}_m)) \tag{12.18} \end{align} h1(D)=(h1(x1),h1(x2),,h1(xm))(12.18)
h 1 ( D ) h_1(D) h1(D)右侧一定是表12.1 的某一行(画线删除该行),类似地, h 2 ( D ) h_2(D) h2(D)右侧一定是表12.1 的某一行(画线删除该行), ⋯ \cdots 如此类推直至用完 H \mathcal{H} H中的 h h h

由于 H \mathcal{H} H无限,而表12.1 中的行有限,按上述方法画上删除线,那么,一定会出现重复删除,并且有的会有无限次重复。 我们关心的是:用完 H \mathcal{H} H中的 h h h,表12.1 中的行是否还有剩下的行?当然有可能。

H \mathcal{H} H中的每个 h h h都有对应的式(12.18)(以及对应的删除线),有删除线的行就形成了一个集合
H D = { ( h ( x 1 ) , h ( x 2 ) , ⋯   , h ( x m ) ) ∣ h ∈ H } \begin{align} \mathcal{H}_D=\{(h(\boldsymbol{x}_1),h(\boldsymbol{x}_2),\cdots,h(\boldsymbol{x}_m))|h\in \mathcal{H}\} \tag{12.19} \end{align} HD={(h(x1),h(x2),,h(xm))hH}(12.19)
该集合的元素的个数为 ∣ H D ∣ |\mathcal{H}_D| HD,也即为删除的行数(重复的删除线不重复计数),因表12.1 中的行为 2 m 2^m 2m,故 ∣ H D ∣ ⩽ 2 m |\mathcal{H}_D|\leqslant 2^m HD2m

由式(12.19)知, ∣ H D ∣ |\mathcal{H}_D| HD D D D有关,现对 D D D的大小限制:让它的大小固定为给定的 m m m,则仍有许多 ∣ H D ∣ |\mathcal{H}_D| HD(因取样不同),但其最大值只有一个,记为: Π H ( m ) {\Pi}_{\mathcal{H}}(m) ΠH(m),即
Π H ( m ) = max ⁡ D ( ∣ H D ∣ : ∣ D ∣ = m ) \begin{align} {\Pi}_{\mathcal{H}}(m) =\max_D(|\mathcal{H}_D|:|D|=m) \tag{12.20} \end{align} ΠH(m)=Dmax(HD:D=m)(12.20)
则式(12.20)只与 m m m相关,视为 m m m的函数,称为 H \mathcal{H} H的增长函数,综合表述为【西瓜书式(12.21)】。

式(12.18)实现了对 D D D的一种二分类(标记为1和0),称为对 D D D的“对分”, D D D的所有可能的“对分”都是表12.1 中的行,而 H \mathcal{H} H D D D上能实现的“对分”为 ∣ H D ∣ |\mathcal{H}_D| HD个(最多为 Π H ( m ) {\Pi}_{\mathcal{H}}(m) ΠH(m)个)。 若存在某个 D D D使得
∣ H D ∣ = 2 m \begin{align} |\mathcal{H}_D|=2^m \tag{12.21} \end{align} HD=2m(12.21)

Π H ( m ) = 2 m \begin{align} {\Pi}_{\mathcal{H}}(m)=2^m \tag{12.22} \end{align} ΠH(m)=2m(12.22)
这时称样本集 D D D能被 H \mathcal{H} H“打散”( D D D的所有标记情况都能被对分,表12.1 中的行都被划掉),简记:表12.1 中的行被 H \mathcal{H} H划掉称为“对分”,表12.1 被 H \mathcal{H} H划掉称为“打散”。

若大小为 m m m D D D中,存在某个 D ′ D' D能被 H \mathcal{H} H“打散”,则从 D ′ D' D中删除一个样本,得到样本集 D ′ ′ D'' D′′,它的大小为 ( m − 1 ) (m-1) (m1),而 D ′ ′ D'' D′′的表12.1 为 D ′ D' D的表12.1 中删除某一列(对应于删除的样本),并由此引起的相同的行的合并。 故样本集 D ′ ′ D'' D′′也能被 H \mathcal{H} H“打散”,这说明“打散”这一性质可以“向下”保持。

“打散”具有覆盖表12.1 的行的特征,当然,表越大越好( m m m越大表越大), H \mathcal{H} H能“打散”的最大表(最大 m m m)称为 H \mathcal{H} H的VC维,即
V C ( H ) = max ⁡ { m : Π H ( m ) = 2 m } \begin{align} \mathrm{VC}(\mathcal{H})=\max\{m:{\Pi}_{\mathcal{H}}(m)=2^m\} \tag{12.23} \end{align} VC(H)=max{m:ΠH(m)=2m}(12.23)

若要证明 V C ( H ) = m \mathrm{VC}(\mathcal{H})=m VC(H)=m,只需证明:

(1)存在一个 D : ∣ D ∣ = m D:|D|=m D:D=m,满足式(12.21);

(2)对所有的 D : ∣ D ∣ = m + 1 D:|D|=m+1 D:D=m+1都不满足式(12.21)。

【西瓜书例12.1及例12.2】就是依此逻辑证明的。

【西瓜书书 p.275 ∼279】通过一些定理及推论讨论了一些“界”,并证明了任何VC维有限的假设空间 H \mathcal{H} H都是(不可知)PAC可学习的。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:12.4 有限假设空间不可分情形
下一篇:12.6 Rademacher复杂度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值