第十二章:计算学习理论

目录

1. 基础知识

2. PAC学习

3. 有限假设空间

3.1 可分情形

3.2 不可分情形

4. VC维

5. Rademacher复杂度

6. 稳定性


1. 基础知识

计算学习理论:是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础

目的:分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计.

令h为x到y一一个映射,其泛化误差:

E(h;\mathcal{D})=P_{\boldsymbol{x}\sim\mathcal{D}}(h(\boldsymbol{x})\neq y)

经验误差:

\widehat{E}(h;D)=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}\big(h(x_{i})\neq y_{i}\big)

误差参数: 用\epsilon表示预先设定的学得模型所应满足的误差要求

两个模型通过“不合”来度量它们的差别:

d(h_1,h_2)=P_{\boldsymbol{x}\sim\mathcal{D}}(h_1(\boldsymbol{x})\neq h_2(\boldsymbol{x}))

常用的不等式:

  •  jensen不等式:

f\big(\mathbb{E}(x)\big)\leqslant\mathbb{E}\big(f(x)\big)

  • Hoeffding不等式:

\begin{gathered} P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2}) , \\ P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2}) \end{gathered}

  • McDiarmid不等式:

\begin{gathered} P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) , \\ P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) \end{gathered}

2. PAC学习

概率近似正确学习理论:最基本的计算学习理论

“概念类”:所有我们希望学得的目标概念所构成的集合称为

“假设空间”:给定一个学习算法,它所考虑的所有可能概念的集合

“可分的”,“一致的”学习算法:目标概念c ∈ H,H中存在假设能将所有示例按与真实标记一致的方式完全分开

“不可分的”,“不一致的”学习算法:c不属于 H,H中不存在任何假设能将所有示例完全正确分开

由于各种因素的影响,算法得到的模型只能接近目标概念,而误差在一定范围内,如下定义

PAC辨识:

P(E(h)\leqslant\epsilon)\geqslant1-\delta

PAC可学习:

算法能从假设空间h中PAC辨识概念类c

PAC学习算法:

运行时间满足:

poly(\frac{1}{\epsilon },\frac{1}{\delta },size(x),size(c))

则称概念类C是高效PAC可学习的,称为概念类C的PAC学习算法.

样本复杂度m,满足:

m\geqslant\mathrm{poly}(1/\epsilon,1/\delta,\mathrm{size}(\boldsymbol{x}),\mathrm{size}(c))

 m为学习算法的样本复杂度

PAC学习中一个关键因素是假设空间H的复杂度.

“恰PAC可学习”:H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=c

H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大. H有限时,我们称H为“有限假设空间”,否则称为“无限假设空间”.

3. 有限假设空间

3.1 可分情形

可分情形:假设空间包含所有可能的目标概念

学习策略:不断剔除不一样的假设,直到剩下一个目标概念,但现实中数据集一般有限

对PAC学习来说,只要训练集D的规模能使学习算法以概率1-\delta找到目标假设的\epsilon近似即可.

先估计泛化误差大于\epsilon但在训练集上仍表现完美的假设出现的概率.

\begin{aligned} P(h(\boldsymbol{x})=y)& =1-P\big(h(\boldsymbol{x})\neq y\big) \\ &=1-E(h) \\ &<1-\epsilon . \end{aligned}

由于D包含m个从D独立同分布采样而得的样例,因此, h 与D表现一致的概率为

\begin{aligned} P\big( (h(\boldsymbol{x}_{1})=y_{1})\wedge\ldots\wedge(h(\boldsymbol{x}_{m})=y_{m}) \big)& =\left(1-P\left(h\left(\boldsymbol{x}\right)\neq y\right)\right)^{m} \\ &<(1-\epsilon)^{m} . \end{aligned}

 我们事先并不知道学习算法会输出H中的哪个假设,但仅需保证泛化误差大于e,且在训练集上表现完美的所有假设出现概率之和不大于f即可,可得:

m\geqslant\frac{1}{\epsilon}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})

由此可知,有限假设空间H都是PAC可学习的,所需的样例数目如上式所示,输出假设h的泛化误差随样例数目的增多而收敛到0,收敛速率为O(\frac{1}{m})

3.2 不可分情形

对较为困难的学习问题,目标概念c往往不存在于假设空间H中

引理1:若训练集D包含m个从分布D上独立同分布采样而得的样本

\begin{gathered} P\big({\widehat E}(h)-E(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^{2}) , \\ P\big(E(h)-\widehat{E}(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^{2}) , \\ P\Big(\Big|E(h)-\widehat{E}(h)\Big|\geqslant\epsilon\Big)\leqslant2\exp(-2m\epsilon^{2}) \end{gathered}

推论1:上式以至少1-\delta的概率成立

\widehat{E}(h)-\sqrt{\frac{\ln{(2/\delta)}}{2m}}\leqslant E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{\ln{(2/\delta)}}{2m}}

推论1表明,样例数目m较大时, h的经验误差是其泛化误差很好的近似

定理1:

P\Big(\Big|E(h)-\widehat{E}(h)\Big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(2/\delta)}{2m}}\Big)\geqslant1-\delta

可得:

\sum_{h\in\mathcal{H}}P\big(\big|E(h)-\widehat{E}(h)\big|>\epsilon\big)\leqslant2|\mathcal{H}|\exp(-2m\epsilon^2)

不可知PAC可学习:

P\big(E(h)-\min_{h'\in\mathcal H}E(h')\leqslant\epsilon\big)\geqslant1-\delta

满足上式的假设h,则称假设空间H是不可知PAC可学习的

4. VC维

对无限假设空间的可学性进行研究,需要度量假设空间的复杂度,也就是考虑空间的“VC维”

给定假设空间和示例集,标记结果为:

h|_{D}=\{\left(h\left(\boldsymbol{x}_{1}\right),h\left(\boldsymbol{x}_{2}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\}.

随着m的增大,H中所有假设对D中的示例所能赋予标记的可能结果数也会增大.

增长函数:

\Pi_{\mathcal{H}}(m)=\max_{\{x_{1},...,x_{m}\}\subseteq\mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}_{1}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\mid h\in\mathcal{H}\right\}\right|

增长函数描述了假设空间H的表示能力,由此反映出假设空间的复杂度.我们可利用增长函数来估计经验误差与泛化误差之间的关系

“对分”:对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种.

“打散”:若假设空间H能实现示例集D上的所有对分,即\prod _H(m)=2^m,则称示例集D能被假设空间H

对假设空间有:

P(\left|E(h)-\widehat{E}(h)\right|>\epsilon)\leqslant4\Pi_{\mathcal{H}}(2m)\exp{(-\frac{m\epsilon^{2}}{8})}

定义VC维:

\mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^m\}

计算H的VC维:若存在大小为d的示例集能被H打散,但不存在任何大小为d+1的示例集能被H打散,则H的VC维是d.

若对一个任意大小为3的示例集,不能进行对分,对大小为2的可以,则VC维为二

可以被线性划分的集合,最大是3

增长函数的上限:

\Pi_{\mathcal H}(m)\leqslant\sum_{i=0}^d\binom{m}{i}

最后可得:

\begin{aligned} |\mathcal{H}_{|D}|& \leqslant\sum_{i=0}^{d}\binom{m-1}{i}+\sum_{i=0}^{d-1}\binom{m-1}{i} \\ &=\sum_{i=0}^{d}\left(\binom{m-1}{i}+\binom{m-1}{i-1}\right) \\ &=\sum_{i=0}^{d}\binom{m}{i} , \end{aligned}

推论2:

\Pi_{\mathcal H}(m)\leqslant(\frac{e\cdot m}{d})^{d} .

定理3:

P\left(E(h)-\widehat{E}(h)\leqslant\sqrt{\frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}}\right)\geqslant1-\delta

由定理12.3可知,上式的泛化误差界只与样例数目m有关,收敛速率为O(\frac{1}{\sqrt{m}}),与数据分布D和样例集D无关.因此,基于VC维的泛化误差界是分布无关、数据独立的.

若h满足:

\widehat{E}(h)=\min_{h'\in\mathcal{H}}\widehat{E}(h')

则称算法为满足经验风险最小化原则的算法.

定理4:任何VC维有限的假设空间H都是(不可知) PAC可学习

5. Rademacher复杂度

Rademacher复杂度:另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布.

假设h的经验误差:

\begin{aligned} \widehat{E}(h)& =\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i}) \\ &=\frac{1}{m}\sum_{i=1}^{m}\frac{1-y_{i}h(\boldsymbol{x}_{i})}{2} \\ &=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_{i}h(\boldsymbol{x}_{i}) , \end{aligned}

经验误差最小的假设:

\arg\max_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}y_{i}h(\boldsymbol{x}_{i}) .

但现实任务中样例的标记有时会受到噪声影响

考虑随机变量,将上式重写为:

\sup_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}h(\boldsymbol{x}_{i}) .

而期望值为:

\mathbb{E}_{\boldsymbol{\sigma}}\Big[\sup_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}h(\boldsymbol{x}_{i})\Big]

函数空间F关于Z的经验Rademacher复杂度

\widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\sigma}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(z_{i})\Big]

 函数空间F关于z上分布D的 Rademacher 复杂度

R_{m}(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_{Z}(\mathcal{F})\Big]

 定理5:对实值函数空间:根据分布D从Z中独立同分布采样得到示例集,以至少1-\delta的概率有:

\mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2R_{m}(\mathcal{F})+\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\\mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2\widehat{R}_{Z}(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}}

定理6:对假设空间H:根据分布D从X中独立同分布采样得到示例集,以至少1-\delta的概率有:

E(h)\leqslant\widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\E(h)\leqslant\widehat{E}(h)+\widehat{R}_{D}(\mathcal{H})+3\sqrt{\frac{\ln(2/\delta)}{2m}} 

定理7:假设空间H的 Rademacher复杂度Rm(H)与增长函数满足:

R_{m}(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}

最后可得:

E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{2d\ln\frac{em}{d}}{m}}+\sqrt{\frac{\ln(1/\delta)}{2m}} 

 也就是说,我们从Rademacher 复杂度和增长函数能推导出基于VC维的泛化误差界.

6. 稳定性

算法的“稳定性”:考察算法在输入发生变化时,输出是否会随之发生较大的变化.学习算法的输入是训练集,因此下面我们做训练集的两种变化.

D^{\setminus i}表示移除D中第i个样例得到的集合

D^{\setminus i}=\{z_1,z_2,\ldots,z_{i-1},z_{i+1},\ldots,z_m\}

D^i表示替换D中第主个样例得到的集合

D^i=\{z_1,z_2,\ldots,z_{i-1},z_i^{'},z_{i+1},\ldots,z_m\}

  •  泛化损失:

\ell(\mathcal{L},\mathcal{D})=\mathbb{E}_{\boldsymbol{x}\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)}\bigl[\ell(\mathcal{L}_{D},\boldsymbol{z})\bigr]

  • 经验损失:

\widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D},\boldsymbol{z}_{i})

  • 留一损失:

\ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z}_{i})

若算法满足:

\begin{vmatrix}\ell(\mathcal{L}_D,\boldsymbol{z})-\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z})\end{vmatrix}\leqslant\beta , i=1,2,\ldots,m,

则称算法关于损失函数满足\beta -均匀稳定性

若算法关于损失函数满足\beta -均匀稳定性,有

\begin{aligned}&\left|\ell(\mathfrak{L}_{D},\boldsymbol{z})-\ell(\mathfrak{L}_{D^{i}},\boldsymbol{z})\right|\\&\leqslant\left|\ell(\mathfrak{L}_{D},\boldsymbol{z})-\ell(\mathfrak{L}_{D\setminus i},\boldsymbol{z})\right|+\left|\ell(\mathfrak{L}_{D^{i}},\boldsymbol{z})-\ell(\mathfrak{L}_{D\setminus i},\boldsymbol{z})\right|\\&\leqslant2\beta ,\end{aligned}

定理8:算法满足\beta -均匀稳定性,至少1-\delta的概率有:

\ell(\mathcal{L},\mathcal{D})\leqslant\widehat{\ell}(\mathcal{L},D)+2\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\\ell(\mathcal{L},\mathcal{D})\leqslant\ell_{loo}(\mathcal{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}

对损失函数,若学习算法所输出的假设满足经验损失最小化,则称算法满足经验风险最小化原则,简称算法是ERM的.

关于学习算法的稳定性和可学习性,有如下定理:

若学习算法是ERM且稳定的,则假设空间H可学习.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值