第十二章：计算学习理论

Joyrich.

于 2024-08-17 17:58:05 发布

阅读量974

点赞数 22

文章标签：学习

本文链接：https://blog.csdn.net/qq_63029071/article/details/141226200

版权

1. 基础知识

计算学习理论：是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础

目的：分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计.

令h为x到y一一个映射，其泛化误差：

$E(h;\mathcal{D})=P_{\boldsymbol{x}\sim\mathcal{D}}(h(\boldsymbol{x})\neq y)$

经验误差：

$\widehat{E}(h;D)=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}\big(h(x_{i})\neq y_{i}\big)$

误差参数：用 $\epsilon$ 表示预先设定的学得模型所应满足的误差要求

两个模型通过“不合”来度量它们的差别：

$d(h_1,h_2)=P_{\boldsymbol{x}\sim\mathcal{D}}(h_1(\boldsymbol{x})\neq h_2(\boldsymbol{x}))$

常用的不等式：

jensen不等式：

$f\big(\mathbb{E}(x)\big)\leqslant\mathbb{E}\big(f(x)\big)$

Hoeffding不等式：

$\begin{gathered} P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2}) , \\ P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2}) \end{gathered}$

McDiarmid不等式：

$\begin{gathered} P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) , \\ P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) \end{gathered}$

2. PAC学习

概率近似正确学习理论：最基本的计算学习理论

“概念类”：所有我们希望学得的目标概念所构成的集合称为

“假设空间”：给定一个学习算法，它所考虑的所有可能概念的集合

“可分的”,“一致的”学习算法：目标概念c ∈ H，H中存在假设能将所有示例按与真实标记一致的方式完全分开

“不可分的”,“不一致的”学习算法：c不属于 H，H中不存在任何假设能将所有示例完全正确分开

由于各种因素的影响，算法得到的模型只能接近目标概念，而误差在一定范围内，如下定义

PAC辨识：

$P(E(h)\leqslant\epsilon)\geqslant1-\delta$

PAC可学习：

算法能从假设空间h中PAC辨识概念类c

PAC学习算法：

运行时间满足：

$poly(\frac{1}{\epsilon },\frac{1}{\delta },size(x),size(c))$

则称概念类C是高效PAC可学习的,称为概念类C的PAC学习算法.

样本复杂度m，满足：

$m\geqslant\mathrm{poly}(1/\epsilon,1/\delta,\mathrm{size}(\boldsymbol{x}),\mathrm{size}(c))$

m为学习算法的样本复杂度

PAC学习中一个关键因素是假设空间H的复杂度.

“恰PAC可学习”:H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=c

H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大. H有限时，我们称H为“有限假设空间”，否则称为“无限假设空间”.

3. 有限假设空间

3.1 可分情形

可分情形：假设空间包含所有可能的目标概念

学习策略：不断剔除不一样的假设，直到剩下一个目标概念，但现实中数据集一般有限

对PAC学习来说,只要训练集D的规模能使学习算法以概率1- $\delta$ 找到目标假设的 $\epsilon$ 近似即可.

先估计泛化误差大于 $\epsilon$ 但在训练集上仍表现完美的假设出现的概率.

$\begin{aligned} P(h(\boldsymbol{x})=y)& =1-P\big(h(\boldsymbol{x})\neq y\big) \\ &=1-E(h) \\ &<1-\epsilon . \end{aligned}$

由于D包含m个从D独立同分布采样而得的样例,因此, h 与D表现一致的概率为

$\begin{aligned} P\big( (h(\boldsymbol{x}_{1})=y_{1})\wedge\ldots\wedge(h(\boldsymbol{x}_{m})=y_{m}) \big)& =\left(1-P\left(h\left(\boldsymbol{x}\right)\neq y\right)\right)^{m} \\ &<(1-\epsilon)^{m} . \end{aligned}$

我们事先并不知道学习算法会输出H中的哪个假设,但仅需保证泛化误差大于e,且在训练集上表现完美的所有假设出现概率之和不大于f即可，可得：

$m\geqslant\frac{1}{\epsilon}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})$

由此可知,有限假设空间H都是PAC可学习的,所需的样例数目如上式所示,输出假设h的泛化误差随样例数目的增多而收敛到0,收敛速率为O $(\frac{1}{m})$

3.2 不可分情形

对较为困难的学习问题,目标概念c往往不存在于假设空间H中

引理1：若训练集D包含m个从分布D上独立同分布采样而得的样本

$\begin{gathered} P\big({\widehat E}(h)-E(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^{2}) , \\ P\big(E(h)-\widehat{E}(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^{2}) , \\ P\Big(\Big|E(h)-\widehat{E}(h)\Big|\geqslant\epsilon\Big)\leqslant2\exp(-2m\epsilon^{2}) \end{gathered}$

推论1：上式以至少1- $\delta$ 的概率成立

$\widehat{E}(h)-\sqrt{\frac{\ln{(2/\delta)}}{2m}}\leqslant E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{\ln{(2/\delta)}}{2m}}$

推论1表明,样例数目m较大时, h的经验误差是其泛化误差很好的近似

定理1：

$P\Big(\Big|E(h)-\widehat{E}(h)\Big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(2/\delta)}{2m}}\Big)\geqslant1-\delta$

可得：

$\sum_{h\in\mathcal{H}}P\big(\big|E(h)-\widehat{E}(h)\big|>\epsilon\big)\leqslant2|\mathcal{H}|\exp(-2m\epsilon^2)$

不可知PAC可学习：

$P\big(E(h)-\min_{h'\in\mathcal H}E(h')\leqslant\epsilon\big)\geqslant1-\delta$

满足上式的假设h，则称假设空间H是不可知PAC可学习的

4. VC维

对无限假设空间的可学性进行研究，需要度量假设空间的复杂度，也就是考虑空间的“VC维”

给定假设空间和示例集，标记结果为：

$h|_{D}=\{\left(h\left(\boldsymbol{x}_{1}\right),h\left(\boldsymbol{x}_{2}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\}.$

随着m的增大,H中所有假设对D中的示例所能赋予标记的可能结果数也会增大.

增长函数：

$\Pi_{\mathcal{H}}(m)=\max_{\{x_{1},...,x_{m}\}\subseteq\mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}_{1}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\mid h\in\mathcal{H}\right\}\right|$

增长函数描述了假设空间H的表示能力，由此反映出假设空间的复杂度.我们可利用增长函数来估计经验误差与泛化误差之间的关系

“对分”：对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种．

“打散”：若假设空间H能实现示例集D上的所有对分,即 $\prod _H(m)=2^m$ ，则称示例集D能被假设空间H

对假设空间有：

$P(\left|E(h)-\widehat{E}(h)\right|>\epsilon)\leqslant4\Pi_{\mathcal{H}}(2m)\exp{(-\frac{m\epsilon^{2}}{8})}$

定义VC维：

$\mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^m\}$

计算H的VC维:若存在大小为d的示例集能被H打散,但不存在任何大小为d＋1的示例集能被H打散,则H的VC维是d.

若对一个任意大小为3的示例集，不能进行对分，对大小为2的可以，则VC维为二

可以被线性划分的集合，最大是3

增长函数的上限：

$\Pi_{\mathcal H}(m)\leqslant\sum_{i=0}^d\binom{m}{i}$

最后可得：

$\begin{aligned} |\mathcal{H}_{|D}|& \leqslant\sum_{i=0}^{d}\binom{m-1}{i}+\sum_{i=0}^{d-1}\binom{m-1}{i} \\ &=\sum_{i=0}^{d}\left(\binom{m-1}{i}+\binom{m-1}{i-1}\right) \\ &=\sum_{i=0}^{d}\binom{m}{i} , \end{aligned}$

推论2：

$\Pi_{\mathcal H}(m)\leqslant(\frac{e\cdot m}{d})^{d} .$

定理3：

$P\left(E(h)-\widehat{E}(h)\leqslant\sqrt{\frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}}\right)\geqslant1-\delta$

由定理12.3可知,上式的泛化误差界只与样例数目m有关,收敛速率为O( $\frac{1}{\sqrt{m}}$ )，与数据分布D和样例集D无关.因此,基于VC维的泛化误差界是分布无关、数据独立的.

若h满足：

$\widehat{E}(h)=\min_{h'\in\mathcal{H}}\widehat{E}(h')$

则称算法为满足经验风险最小化原则的算法.

定理4：任何VC维有限的假设空间H都是(不可知) PAC可学习

5. Rademacher复杂度

Rademacher复杂度：另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布.

假设h的经验误差：

$\begin{aligned} \widehat{E}(h)& =\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i}) \\ &=\frac{1}{m}\sum_{i=1}^{m}\frac{1-y_{i}h(\boldsymbol{x}_{i})}{2} \\ &=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_{i}h(\boldsymbol{x}_{i}) , \end{aligned}$

经验误差最小的假设：

$\arg\max_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}y_{i}h(\boldsymbol{x}_{i}) .$

但现实任务中样例的标记有时会受到噪声影响

考虑随机变量，将上式重写为：

$\sup_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}h(\boldsymbol{x}_{i}) .$

而期望值为：

$\mathbb{E}_{\boldsymbol{\sigma}}\Big[\sup_{h\in\mathcal{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}h(\boldsymbol{x}_{i})\Big]$

函数空间F关于Z的经验Rademacher复杂度

$\widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\sigma}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(z_{i})\Big]$

函数空间F关于z上分布D的 Rademacher 复杂度

$R_{m}(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_{Z}(\mathcal{F})\Big]$

定理5：对实值函数空间：根据分布D从Z中独立同分布采样得到示例集，以至少1- $\delta$ 的概率有：

$\mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2R_{m}(\mathcal{F})+\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\\mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(z_{i})+2\widehat{R}_{Z}(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}}$

定理6：对假设空间H：根据分布D从X中独立同分布采样得到示例集，以至少1- $\delta$ 的概率有：

$E(h)\leqslant\widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\E(h)\leqslant\widehat{E}(h)+\widehat{R}_{D}(\mathcal{H})+3\sqrt{\frac{\ln(2/\delta)}{2m}}$

定理7：假设空间H的 Rademacher复杂度Rm(H)与增长函数满足：

$R_{m}(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}$

最后可得：

$E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{2d\ln\frac{em}{d}}{m}}+\sqrt{\frac{\ln(1/\delta)}{2m}}$

也就是说，我们从Rademacher 复杂度和增长函数能推导出基于VC维的泛化误差界.

6. 稳定性

算法的“稳定性”：考察算法在输入发生变化时,输出是否会随之发生较大的变化.学习算法的输入是训练集,因此下面我们做训练集的两种变化.

$D^{\setminus i}$ 表示移除D中第i个样例得到的集合

$D^{\setminus i}=\{z_1,z_2,\ldots,z_{i-1},z_{i+1},\ldots,z_m\}$

$D^i$ 表示替换D中第主个样例得到的集合

$D^i=\{z_1,z_2,\ldots,z_{i-1},z_i^{'},z_{i+1},\ldots,z_m\}$

泛化损失：

$\ell(\mathcal{L},\mathcal{D})=\mathbb{E}_{\boldsymbol{x}\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)}\bigl[\ell(\mathcal{L}_{D},\boldsymbol{z})\bigr]$

经验损失：

$\widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D},\boldsymbol{z}_{i})$

留一损失：

$\ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z}_{i})$

若算法满足：

$\begin{vmatrix}\ell(\mathcal{L}_D,\boldsymbol{z})-\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z})\end{vmatrix}\leqslant\beta , i=1,2,\ldots,m,$

则称算法关于损失函数满足 $\beta -$ 均匀稳定性

若算法关于损失函数满足 $\beta -$ 均匀稳定性，有

$\begin{aligned}&\left|\ell(\mathfrak{L}_{D},\boldsymbol{z})-\ell(\mathfrak{L}_{D^{i}},\boldsymbol{z})\right|\\&\leqslant\left|\ell(\mathfrak{L}_{D},\boldsymbol{z})-\ell(\mathfrak{L}_{D\setminus i},\boldsymbol{z})\right|+\left|\ell(\mathfrak{L}_{D^{i}},\boldsymbol{z})-\ell(\mathfrak{L}_{D\setminus i},\boldsymbol{z})\right|\\&\leqslant2\beta ,\end{aligned}$

定理8：算法满足 $\beta -$ 均匀稳定性，至少1- $\delta$ 的概率有：

$\ell(\mathcal{L},\mathcal{D})\leqslant\widehat{\ell}(\mathcal{L},D)+2\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} ,\\\ell(\mathcal{L},\mathcal{D})\leqslant\ell_{loo}(\mathcal{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$