(《机器学习》完整版系列)第12章 计算学习理论——12.2 学习算法的能力(多项式成本是可以接受的,而指数成本是不可接受的)

多项式成本是可以接受的,而指数成本是不可接受的。
PAC学习算法 L \mathfrak{L} L所需的采样成本与运行成本都为多项式成本。

学习算法的能力

上篇都是脱离了算法去讨论假设空间 H \mathcal{H} H的覆盖能力,这种能力是理论上的存在(实际上没解决如何找到),还要靠算法来实现其能力,现在讨论学习算法的能力。

(i)具有“天赋”的学习算法 L \mathfrak{L} L

学习算法 L \mathfrak{L} L的假设空间 H \mathcal{H} H总能“几乎近似覆盖”概念类 C \mathcal{C} C,即有( 3 ′ ′ ′ 3''' 3′′′),而学习算法 L \mathfrak{L} L每次(所有分布 D \mathcal{D} D、任意的 c ∈ C c \in \mathcal{C} cC)又都能“找出” h h h,使得“几乎” h ≈ c h\approx c hc,即有满足( 3 3 3),则称学习算法 L \mathfrak{L} L能从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C。 这即【西瓜书定义12.1】。

(ii)“天赋”高的学习算法 L \mathfrak{L} L

许多学习算法 L \mathfrak{L} L能从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C时,我们关注学习过程是否“顺利”(即时间成本),即“天赋”是否高(学习过程是否“快”)。

学习算法 L \mathfrak{L} L能从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C的辨识过程即是“找出满足(3)的 h h h”,实际上是在数据集 D D D上训练出 h h h
,训练过程有两步:一是采样形成训练集 D D D;二是在训练集上训练。 记为
L + D ⟹ 训练 h \begin{align} \mathfrak{L}+D \mathop{\Longrightarrow}\limits_{\text{训练}} h \tag{12.3} \end{align} L+D训练h(12.3)

学习成本通常是指时间花费(专业地术语:时间复杂度),样本数量体现了采样时间,计算数学认为多项式成本是可以接受的,而指数成本是不可接受的。 显然,成本与多个因素相关,故这里的多项式应该是多元多项式,到底有哪些因素?

正向相关的有: X \mathcal{X} X空间的维度(即 s i z e ( x ) \mathrm{size}(\boldsymbol{x}) size(x)), C \mathcal{C} C c c c的复杂度(即 s i z e ( c ) \mathrm{size}(c) size(c));反向相关的有: 精度 ϵ \epsilon ϵ,置信水平 1 − δ 1-\delta 1δ,而要求与分布 D \mathcal{D} D不相关(因已加强为“对所有分布”),因此,该多元多项式为
p o l y ( 1 ϵ , 1 δ , s i z e ( x ) , s i z e ( c ) ) \begin{align} \mathrm{poly}(\frac{1}{\epsilon},\frac{1}{\delta},\mathrm{size}(\boldsymbol{x}),\mathrm{size}(c)) \tag{12.4} \end{align} poly(ϵ1,δ1,size(x),size(c))(12.4)

学习成本相应地反应了“概念好不好学”,分两个层面:

(1)概念类 C \mathcal{C} C“可学”:需要的样例数可接受

m m m表示采样数目(依分布 D \mathcal{D} D进行独立同分布采样形成训练集: D ∼ D m D\thicksim \mathcal{D}^m DDm),若存在式(12.4)多项式,只要 m ⩾ 式 ( 12.4 ) m\geqslant 式(12.4) m(12.4),学习算法 L \mathfrak{L} L就能实现从假设空间 H \mathcal{H} H中PAC辨识概念类 C \mathcal{C} C(可以理解为: 存在学习算法 L \mathfrak{L} L,在此样本数条件下训练出假设空间 H L \mathcal{H}_{\mathfrak{L}} HL,而 H ∩ H L \mathcal{H} \cap \mathcal{H}_{\mathfrak{L}} HHL满足前述( 3 ′ ′ ′ 3''' 3′′′)),则称概念类 C \mathcal{C} C是PAC可学习的,当然,它是针对假设空间 H \mathcal{H} H而言,算法 L \mathfrak{L} L是实现的手段,因此,只需要存在这样的算法 L \mathfrak{L} L即可。 这即【西瓜书定义12.2】的含义。

(2)概念类 C \mathcal{C} C“好学”:需要的学时可接受

在满足上述采样成本的前题下,若算法 L \mathfrak{L} L的运行时间(式(12.3)中产生 h h h的时间)也是多项式函数(即存在式(12.4)多项式,使得运行时间不超过它),则加上“高效”,即称概念类 C \mathcal{C} C是高效PAC可学习的,这时的算法 L \mathfrak{L} L称为概念类 C \mathcal{C} C的PAC学习算法,常省去“PAC”,简称学习算法。 这即【西瓜书定义12.3】的含义。

综上,PAC学习算法 L \mathfrak{L} L所需的采样成本与运行成本都为多项式(12.4)所表达。

上述 m ⩽ 式 ( 12.4 ) m\leqslant 式(12.4) m(12.4),若存在“最小值 m m m”,则称为PAC学习算法 L \mathfrak{L} L的样本复杂度。 这即【西瓜书定义12.4】的含义。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:12.1 概念类与假设空间的关系(几乎、近似、覆盖)
下一篇:12.3 有限假设空间可分情形

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值