若样本集
D
D
D能被
H
\mathcal{H}
H“打散”,简记:表12.1 中的行被
H
\mathcal{H}
H划掉称为“对分”,表12.1 被
H
\mathcal{H}
H划掉称为“打散”。
H
\mathcal{H}
H能“打散”的最大表(最大
m
m
m)称为
H
\mathcal{H}
H的VC维,
可证明任何VC维有限的假设空间
H
\mathcal{H}
H都是(不可知)PAC可学习的。
无限假设空间
对于“无限”常常是束手无策,但我们可考虑某些特殊的“无限”,即含有某种“有限”,如“VC维”。
给定样本集
D
=
{
x
i
}
i
=
1
m
D=\{\boldsymbol{x}_i\}_{i=1}^m
D={xi}i=1m,对于二分类
D
D
D的所有可能的标记(不是指真实标记),有
2
m
2^m
2m种情况,见表12.1 。
其中,每一行表示一种分类的可能,将该行标记形成的二进制数转换成十进制作为行编号。
给定假设空间
H
\mathcal{H}
H,设
h
1
∈
H
h_1\in \mathcal{H}
h1∈H,将其作用于
D
D
D的所有样本
h
1
(
D
)
=
(
h
1
(
x
1
)
,
h
1
(
x
2
)
,
⋯
,
h
1
(
x
m
)
)
\begin{align} h_1(D)=(h_1(\boldsymbol{x}_1),h_1(\boldsymbol{x}_2),\cdots,h_1(\boldsymbol{x}_m)) \tag{12.18} \end{align}
h1(D)=(h1(x1),h1(x2),⋯,h1(xm))(12.18)
则
h
1
(
D
)
h_1(D)
h1(D)右侧一定是表12.1 的某一行(画线删除该行),类似地,
h
2
(
D
)
h_2(D)
h2(D)右侧一定是表12.1 的某一行(画线删除该行),
⋯
\cdots
⋯如此类推直至用完
H
\mathcal{H}
H中的
h
h
h。
由于 H \mathcal{H} H无限,而表12.1 中的行有限,按上述方法画上删除线,那么,一定会出现重复删除,并且有的会有无限次重复。 我们关心的是:用完 H \mathcal{H} H中的 h h h,表12.1 中的行是否还有剩下的行?当然有可能。
H
\mathcal{H}
H中的每个
h
h
h都有对应的式(12.18)(以及对应的删除线),有删除线的行就形成了一个集合
H
D
=
{
(
h
(
x
1
)
,
h
(
x
2
)
,
⋯
,
h
(
x
m
)
)
∣
h
∈
H
}
\begin{align} \mathcal{H}_D=\{(h(\boldsymbol{x}_1),h(\boldsymbol{x}_2),\cdots,h(\boldsymbol{x}_m))|h\in \mathcal{H}\} \tag{12.19} \end{align}
HD={(h(x1),h(x2),⋯,h(xm))∣h∈H}(12.19)
该集合的元素的个数为
∣
H
D
∣
|\mathcal{H}_D|
∣HD∣,也即为删除的行数(重复的删除线不重复计数),因表12.1 中的行为
2
m
2^m
2m,故
∣
H
D
∣
⩽
2
m
|\mathcal{H}_D|\leqslant 2^m
∣HD∣⩽2m。
由式(12.19)知,
∣
H
D
∣
|\mathcal{H}_D|
∣HD∣与
D
D
D有关,现对
D
D
D的大小限制:让它的大小固定为给定的
m
m
m,则仍有许多
∣
H
D
∣
|\mathcal{H}_D|
∣HD∣(因取样不同),但其最大值只有一个,记为:
Π
H
(
m
)
{\Pi}_{\mathcal{H}}(m)
ΠH(m),即
Π
H
(
m
)
=
max
D
(
∣
H
D
∣
:
∣
D
∣
=
m
)
\begin{align} {\Pi}_{\mathcal{H}}(m) =\max_D(|\mathcal{H}_D|:|D|=m) \tag{12.20} \end{align}
ΠH(m)=Dmax(∣HD∣:∣D∣=m)(12.20)
则式(12.20)只与
m
m
m相关,视为
m
m
m的函数,称为
H
\mathcal{H}
H的增长函数,综合表述为【西瓜书式(12.21)】。
式(12.18)实现了对
D
D
D的一种二分类(标记为1和0),称为对
D
D
D的“对分”,
D
D
D的所有可能的“对分”都是表12.1 中的行,而
H
\mathcal{H}
H在
D
D
D上能实现的“对分”为
∣
H
D
∣
|\mathcal{H}_D|
∣HD∣个(最多为
Π
H
(
m
)
{\Pi}_{\mathcal{H}}(m)
ΠH(m)个)。 若存在某个
D
D
D使得
∣
H
D
∣
=
2
m
\begin{align} |\mathcal{H}_D|=2^m \tag{12.21} \end{align}
∣HD∣=2m(12.21)
则
Π
H
(
m
)
=
2
m
\begin{align} {\Pi}_{\mathcal{H}}(m)=2^m \tag{12.22} \end{align}
ΠH(m)=2m(12.22)
这时称样本集
D
D
D能被
H
\mathcal{H}
H“打散”(
D
D
D的所有标记情况都能被对分,表12.1 中的行都被划掉),简记:表12.1 中的行被
H
\mathcal{H}
H划掉称为“对分”,表12.1 被
H
\mathcal{H}
H划掉称为“打散”。
若大小为 m m m的 D D D中,存在某个 D ′ D' D′能被 H \mathcal{H} H“打散”,则从 D ′ D' D′中删除一个样本,得到样本集 D ′ ′ D'' D′′,它的大小为 ( m − 1 ) (m-1) (m−1),而 D ′ ′ D'' D′′的表12.1 为 D ′ D' D′的表12.1 中删除某一列(对应于删除的样本),并由此引起的相同的行的合并。 故样本集 D ′ ′ D'' D′′也能被 H \mathcal{H} H“打散”,这说明“打散”这一性质可以“向下”保持。
“打散”具有覆盖表12.1 的行的特征,当然,表越大越好(
m
m
m越大表越大),
H
\mathcal{H}
H能“打散”的最大表(最大
m
m
m)称为
H
\mathcal{H}
H的VC维,即
V
C
(
H
)
=
max
{
m
:
Π
H
(
m
)
=
2
m
}
\begin{align} \mathrm{VC}(\mathcal{H})=\max\{m:{\Pi}_{\mathcal{H}}(m)=2^m\} \tag{12.23} \end{align}
VC(H)=max{m:ΠH(m)=2m}(12.23)
若要证明 V C ( H ) = m \mathrm{VC}(\mathcal{H})=m VC(H)=m,只需证明:
(1)存在一个 D : ∣ D ∣ = m D:|D|=m D:∣D∣=m,满足式(12.21);
(2)对所有的 D : ∣ D ∣ = m + 1 D:|D|=m+1 D:∣D∣=m+1都不满足式(12.21)。
【西瓜书例12.1及例12.2】就是依此逻辑证明的。
【西瓜书书 p.275 ∼279】通过一些定理及推论讨论了一些“界”,并证明了任何VC维有限的假设空间 H \mathcal{H} H都是(不可知)PAC可学习的。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:12.4 有限假设空间不可分情形
下一篇:12.6 Rademacher复杂度