当假设空间
H
\mathcal{H}
H是有限时,学习算法
L
\mathfrak{L}
L运行成本至多为遍历有限的
H
\mathcal{H}
H,当然是多项式的,那么,算法
L
\mathfrak{L}
L是否为PAC学习算法就看它所需要的样本数
m
m
m是否是多项式的了,我们分两种情况讨论
m
m
m:(本篇)有限假设空间可分情形和(下篇)有限假设空间不可分情形。
在有限假设空间且可分情形下,直观来看:最好在
H
D
\mathcal{H}_D
HD中寻找需要的
h
h
h。 而
H
D
\mathcal{H}_D
HD中许多
h
h
h是“过拟合”的(“过拟合”的极端是全完拟合:虽然在数据集
D
D
D上误差为0,但它的泛化误差大),剔除这些“过拟合”的假设后,其任一假设
h
h
h都是有效解,而剔除“过拟合”需要足够的样本数量。
可分情形
在可分(即 c ∈ H c \in \mathcal{H} c∈H,参见12.1 概念类与假设空间的关系图12.2 所示)的条件下,【西瓜书p.270-271】给出的简单学习策略:取数据集 D D D上误差为0的假设 h h h(注:本章的采样不考虑噪音等,即数据集中无矛盾数据,因而可以实现误差为0)。 但问题在于这样的假设不是唯一的,设它们组成假设空间的子空间 H D \mathcal{H}_D HD,直观来看:最好在 H D \mathcal{H}_D HD中寻找需要的 h h h。 而 H D \mathcal{H}_D HD中许多 h h h是“过拟合”的(即虽然在数据集 D D D上误差为0,但它的泛化误差大),剔除这些“过拟合”的假设后,其任一假设 h h h都是有效解,而剔除“过拟合”需要足够的样本数量。
(1)若 E ( h ) > ϵ E(h)>\epsilon E(h)>ϵ,则 E ^ ( h ) = 0 \hat E(h)=0 E^(h)=0为小概率事件
设
H
\mathcal{H}
H中所有满足泛化误差
E
(
h
)
>
ϵ
E(h)>\epsilon
E(h)>ϵ的
h
h
h组成
H
0
\mathcal{H}_0
H0,【西瓜书式(12.10)(12.11)】论证了这样一个结论:若
h
∈
H
0
h\in \mathcal{H}_0
h∈H0,则
h
h
h的经验误差为0的概率上界为
P
(
E
^
(
h
)
=
0
)
<
(
1
−
ϵ
)
m
\begin{align} P(\hat E(h)=0)<(1-\epsilon)^m \tag{12.5} \end{align}
P(E^(h)=0)<(1−ϵ)m(12.5)
其中,
E
^
(
h
)
\hat E(h)
E^(h)是由【西瓜书式(12.2)】定义的经验误差,
m
=
∣
D
∣
m=|D|
m=∣D∣。
H
0
\mathcal{H}_0
H0为
H
\mathcal{H}
H的子集,即它有限,设
H
0
=
{
h
i
}
i
=
1
n
0
\mathcal{H}_0=\{h_i\}_{i=1}^{n_0}
H0={hi}i=1n0,则
P
(
∀
h
∈
H
:
E
(
h
)
>
ϵ
∧
E
^
(
h
)
=
0
)
=
P
(
∀
h
∈
H
0
:
E
^
(
h
)
=
0
)
=
P
(
E
^
(
h
1
)
=
0
∨
E
^
(
h
2
)
=
0
∨
⋯
∨
E
^
(
h
n
0
)
=
0
)
⩽
∑
h
i
∈
H
0
P
(
E
^
(
h
i
)
=
0
)
<
∣
H
0
∣
(
1
−
ϵ
)
m
(由式(12.5))
⩽
∣
H
∣
(
1
−
ϵ
)
m
\begin{align} & \quad P(\forall h \in \mathcal{H}:E(h)>\epsilon\wedge \hat E(h)=0)\notag \\ & =P(\forall h \in \mathcal{H}_0:\hat E(h)=0)\notag \\ & =P(\hat E(h_1)=0\vee \hat E(h_2)=0\vee\cdots \vee \hat E(h_{n_0})=0)\notag \\ & \leqslant \sum_{h_i\in \mathcal{H}_0 }P(\hat E(h_i)=0)\notag \\ & <|\mathcal{H}_0|(1-\epsilon)^m\qquad \text{(由式(12.5))}\notag \\ & \leqslant|\mathcal{H}|(1-\epsilon)^m \tag{12.6} \end{align}
P(∀h∈H:E(h)>ϵ∧E^(h)=0)=P(∀h∈H0:E^(h)=0)=P(E^(h1)=0∨E^(h2)=0∨⋯∨E^(hn0)=0)⩽hi∈H0∑P(E^(hi)=0)<∣H0∣(1−ϵ)m(由式(12.5))⩽∣H∣(1−ϵ)m(12.6)
(2)若 E ^ ( h ) = 0 \hat E(h)=0 E^(h)=0,则 E ( h ) ≈ 0 E(h)\approx 0 E(h)≈0很可能
设
H
\mathcal{H}
H中所有满足经验误差
E
^
(
h
)
=
0
\hat E(h)=0
E^(h)=0的
h
h
h组成
H
D
\mathcal{H}_D
HD(因
c
∈
H
c \in \mathcal{H}
c∈H,故
H
D
\mathcal{H}_D
HD非空),则
P
(
∃
h
∈
H
D
:
E
(
h
)
⩽
ϵ
)
=
1
−
P
(
∀
h
∈
H
D
:
E
(
h
)
>
ϵ
)
=
1
−
P
(
∀
h
∈
H
D
:
E
(
h
)
>
ϵ
∧
E
^
(
h
)
=
0
)
(由
H
定义)
⩾
1
−
P
(
∀
h
∈
H
:
E
(
h
)
>
ϵ
∧
E
^
(
h
)
=
0
)
(范围变大)
>
1
−
∣
H
∣
(
1
−
ϵ
)
m
(由式(12.6))
\begin{align} P(\exists h \in \mathcal{H}_D:E(h)\leqslant \epsilon) & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon)\notag \\ & =1-P(\forall h \in \mathcal{H}_D:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{(由$\mathcal{H}$定义)}\notag \\ & \geqslant 1-P(\forall h \in \mathcal{H}:E(h)> \epsilon\wedge \hat E(h)=0)\qquad \text{(范围变大)}\notag \\ & >1-|\mathcal{H}|(1-\epsilon)^m\qquad \text{(由式(12.6))} \tag{12.7} \end{align}
P(∃h∈HD:E(h)⩽ϵ)=1−P(∀h∈HD:E(h)>ϵ)=1−P(∀h∈HD:E(h)>ϵ∧E^(h)=0)(由H定义)⩾1−P(∀h∈H:E(h)>ϵ∧E^(h)=0)(范围变大)>1−∣H∣(1−ϵ)m(由式(12.6))(12.7)
由若式(12.7)知:要使式(12.2)成立,只需
1
−
∣
H
∣
(
1
−
ϵ
)
m
⩾
1
−
δ
\begin{align} 1-|\mathcal{H}| (1-\epsilon)^m\geqslant 1-\delta \tag{12.8} \end{align}
1−∣H∣(1−ϵ)m⩾1−δ(12.8)
显然有解,这时“几乎”
E
(
h
)
≈
0
E(h)\approx 0
E(h)≈0。
(3)有限假设空间 H \mathcal{H} H都是PAC可学习的
从不等式(12.8)中解出 m m m,即【西瓜书式(12.14)】,它是式(12.2)成立所需的样本数,显然,这个所需的样本数不超过某个式(12.4)型的多项式,即有限假设空间 H \mathcal{H} H都是PAC可学习的。
又由【西瓜书式(12.14)】可能得到式(12.2)中泛化误差上界
ϵ
\epsilon
ϵ满足
ϵ
⩾
1
m
(
ln
∣
H
∣
+
ln
1
δ
)
→
0
(
若
m
→
+
∞
)
\begin{align} \epsilon & \geqslant \frac{1}{m}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})\notag \\ & \to 0 \, (\text{若} \ m \to +\infty ) \tag{12.9} \end{align}
ϵ⩾m1(ln∣H∣+lnδ1)→0(若 m→+∞)(12.9)
即给定
δ
\delta
δ,则
ϵ
\epsilon
ϵ收敛于0,且收敛速度为
O
(
1
m
)
O(\frac{1}{m})
O(m1)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:12.2 学习算法的能力(多项式成本是可以接受的,而指数成本是不可接受的)
下一篇:12.4 有限假设空间不可分情形