多项式成本是可以接受的,而指数成本是不可接受的。
PAC学习算法
L
\mathfrak{L}
L所需的采样成本与运行成本都为多项式成本。
学习算法的能力
上篇都是脱离了算法去讨论假设空间 H \mathcal{H} H的覆盖能力,这种能力是理论上的存在(实际上没解决如何找到),还要靠算法来实现其能力,现在讨论学习算法的能力。
(i)具有“天赋”的学习算法 L \mathfrak{L} L
学习算法 L \mathfrak{L} L的假设空间 H \mathcal{H} H总能“几乎近似覆盖”概念类 C \mathcal{C} C,即有( 3 ′ ′ ′ 3''' 3′′′),而学习算法 L \mathfrak{L} L每次(所有分布 D \mathcal{D} D、任意的 c ∈ C c \in \mathcal{C} c∈C)又都能“找出” h h h,使得“几乎” h ≈ c h\approx c h≈c,即有满足( 3 3 3),则称学习算法 L \mathfrak{L} L能从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C。 这即【西瓜书定义12.1】。
(ii)“天赋”高的学习算法 L \mathfrak{L} L
许多学习算法 L \mathfrak{L} L能从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C时,我们关注学习过程是否“顺利”(即时间成本),即“天赋”是否高(学习过程是否“快”)。
学习算法
L
\mathfrak{L}
L能从假设空间
H
\mathcal{H}
H中PAC辨识概念类
C
\mathcal{C}
C的辨识过程即是“找出满足(3)的
h
h
h”,实际上是在数据集
D
D
D上训练出
h
h
h
,训练过程有两步:一是采样形成训练集
D
D
D;二是在训练集上训练。 记为
L
+
D
⟹
训练
h
\begin{align} \mathfrak{L}+D \mathop{\Longrightarrow}\limits_{\text{训练}} h \tag{12.3} \end{align}
L+D训练⟹h(12.3)
学习成本通常是指时间花费(专业地术语:时间复杂度),样本数量体现了采样时间,计算数学认为多项式成本是可以接受的,而指数成本是不可接受的。 显然,成本与多个因素相关,故这里的多项式应该是多元多项式,到底有哪些因素?
正向相关的有:
X
\mathcal{X}
X空间的维度(即
s
i
z
e
(
x
)
\mathrm{size}(\boldsymbol{x})
size(x)),
C
\mathcal{C}
C中
c
c
c的复杂度(即
s
i
z
e
(
c
)
\mathrm{size}(c)
size(c));反向相关的有: 精度
ϵ
\epsilon
ϵ,置信水平
1
−
δ
1-\delta
1−δ,而要求与分布
D
\mathcal{D}
D不相关(因已加强为“对所有分布”),因此,该多元多项式为
p
o
l
y
(
1
ϵ
,
1
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
\begin{align} \mathrm{poly}(\frac{1}{\epsilon},\frac{1}{\delta},\mathrm{size}(\boldsymbol{x}),\mathrm{size}(c)) \tag{12.4} \end{align}
poly(ϵ1,δ1,size(x),size(c))(12.4)
学习成本相应地反应了“概念好不好学”,分两个层面:
(1)概念类 C \mathcal{C} C“可学”:需要的样例数可接受
令 m m m表示采样数目(依分布 D \mathcal{D} D进行独立同分布采样形成训练集: D ∼ D m D\thicksim \mathcal{D}^m D∼Dm),若存在式(12.4)多项式,只要 m ⩾ 式 ( 12.4 ) m\geqslant 式(12.4) m⩾式(12.4),学习算法 L \mathfrak{L} L就能实现从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C(可以理解为: 存在学习算法 L \mathfrak{L} L,在此样本数条件下训练出假设空间 H L \mathcal{H}_{\mathfrak{L}} HL,而 H ∩ H L \mathcal{H} \cap \mathcal{H}_{\mathfrak{L}} H∩HL满足前述( 3 ′ ′ ′ 3''' 3′′′)),则称概念类 C \mathcal{C} C是PAC可学习的,当然,它是针对假设空间 H \mathcal{H} H而言,算法 L \mathfrak{L} L是实现的手段,因此,只需要存在这样的算法 L \mathfrak{L} L即可。 这即【西瓜书定义12.2】的含义。
(2)概念类 C \mathcal{C} C“好学”:需要的学时可接受
在满足上述采样成本的前题下,若算法 L \mathfrak{L} L的运行时间(式(12.3)中产生 h h h的时间)也是多项式函数(即存在式(12.4)多项式,使得运行时间不超过它),则加上“高效”,即称概念类 C \mathcal{C} C是高效PAC可学习的,这时的算法 L \mathfrak{L} L称为概念类 C \mathcal{C} C的PAC学习算法,常省去“PAC”,简称学习算法。 这即【西瓜书定义12.3】的含义。
综上,PAC学习算法 L \mathfrak{L} L所需的采样成本与运行成本都为多项式(12.4)所表达。
上述 m ⩽ 式 ( 12.4 ) m\leqslant 式(12.4) m⩽式(12.4),若存在“最小值 m m m”,则称为PAC学习算法 L \mathfrak{L} L的样本复杂度。 这即【西瓜书定义12.4】的含义。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权