机器学习——第十二章计算学习理论

adchloe

于 2024-08-19 17:46:31 发布

阅读量688

点赞数 20

文章标签：机器学习学习人工智能

本文链接：https://blog.csdn.net/adchloe/article/details/141324504

版权

1 基础知识

该理论研究的是关于通过计算来进行学习的理论，目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据法分析结果指导算法设计。

给定样例集D，假设 $\chi$ 中的所有样本服从一个隐含未知的分布 $T$ ,D中所有样本都是独立地从这个分布上采样而得。
令h为 $\chi到y$ 的一个映射，泛化误差为
$E(h;T)=P_{x\sim T}(h(x)\ne y)$

h在D上的经验误差为
$\tilde E(h;T)=\frac{1}{m}\sum_{i=1}^{m}\parallel (h(x_i)\ne y_i)$

由于D是T的独立同分布采样，因此h的经验误差的期望等于其泛化误差。

几个常用不等式：

jesen不等式：对任意凸函数 $f (x)$ ，有
$f(E(x))\le E(f(x))$

Hoeffding 不等式：若 $x_1,x_2,\ldots,x_m$ 为 $m$ 个独立随机变
量，且满足 $0\leqslant x_i\leqslant1$ ,则对任意 $\epsilon>0$ ,有

$P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2})\:,\\P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2})\:.$

McDiarmid 不等式：若 $x_1,x_2,\ldots,x_m$ 为 $m$ 个独立随

机变量，且对任意 $1\leqslant i\leqslant m$ ,函数 $f$ 满足
$\sup_{x_{1},\ldots,x_{m},\:x_{i}^{\prime}}|f(x_{1},\ldots,x_{m})-f(x_{1},\ldots,x_{i-1},x_{i}^{\prime},x_{i+1},\ldots,x_{m})|\leqslant c_{i}\:,$
则对任意 $\epsilon>0$ ,有

$P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:,\\P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:.$

2 PAC学习

令c表示概念，是从样本空间 $x 到标记空间 y 的标记$ ，若对任何样例 $(x, y)$ ，有 $c (x) = y$ 成立，称c为目标概念，所有我没希望学得的目标概念所构成的集合称为概念类，用符号 $C$ 表示。

给定学习算法，它所考虑的所有可能概念的集合称为假设空间，用符号H表示。学习算法会把自认为可能的目标概念击中起来构成H，称为假设，假设h也是从样本空间到标记空间的映射。

可分的（一致的）：若目标概念 $c\in H$ ，则H中存在假设能将所有示例按与真实标记一致的方式完全分开。

不可分的（不一致的）：若目标概念 $c\notin H$ ，则H中不存在假设能将所有示例完全正确分开。

希望比较大的概率学得误差满足预设上限的模型。

令 $\delta$ 表示置信度，定义

PAC辨识：
对0 $<\epsilon ,\delta<1$ ,所有 $c\in C$ 和分布D，若存在学习算法，其输出假设 $h\in H$ 满足 $P(E(h)\le \epsilon )\ge 1-\delta$
则称学习算法能从假设空间H中PAC辨识概念类C。

PAC可学习：
令 $m$ 表示从分布 $\mathcal{D}$ 中独立同分布采样得到的样例数目 $,0<\epsilon,\delta<1$ ,对所有分布 $\mathcal{D}$ ,若存在学习算法 $\mathfrak{S}$ 和多项式函数 poly $(\cdot,\cdot,\cdot,\cdot)$ ,使得对于任何 $m\geqslant$ poly $(1/\epsilon,1/\delta$ ,size $(\boldsymbol{x})$ ,size $(c)),\mathfrak{S}$ 能从假设空间 $\mathcal{H}$ 中 PAC 辨识概念类 $\mathcal{C}$ ,则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 而言是 PAC 可学习的，有时也简称概念类 $\mathcal{C}$ 是 PAC 可学习的。

PAC 学习算法：
若学习算法 $\mathfrak{S}$ 使概念类 $\mathcal{C}$ 为 PAC 可学习的，且 $\mathfrak{S}$ 的运行时间也是多项式函数 poly $(1/\epsilon,1/\delta$ , size $(\boldsymbol{x})$ ,size $(c))$ ,则称概念类 $\mathcal{C}$ 是高效 PAC 可学习 (efficiently PAC learnable) 的，称 $\mathfrak{S}$ 为概念类 $\mathcal{C}$ 的 PAC 学习算法。

样本复杂度 (Sample Complexity):满足 PAC 学习算法 $\mathfrak{S}$ 所需的 $m\geqslant$ poly $(1/\epsilon,1/\delta$ ,size $(\boldsymbol{x})$ ,size $(c))$ 中最小的 $m$ ,称为学习算法 $\mathfrak{S}$ 的样本复杂度。

PAC学习中的一个关键因素是假设空间的复杂度，假设空间越大，其包含任意目标概念的可能性越大，从中找到某个具体目标概念的难度也越大。假设空间分为有限假设空间和无限假设空间。

3 有限假设空间

3.1 可分情形

策略：对于训练集D，只需保留与D一致的假设，提出与D不一致的假设。若训练集D足够大，可不断借助D中的样例剔除不一致的假设，直到仅剩一个假设为止，这个假设就是目标概念c。由于训练集规模有限，假设空间可能存在不止一个与D一致的等效假设，对于这些等效假设，无法根据D对它们的优劣进一步区分。

为解决需要多少样例才能学得目标概念c的有效近似。

对分布D上随机采样而得得任何样例 $(x, y)$ ，有
$P(h(x)=y)<1-\epsilon$

由于 $D$ 包含 $m$ 个从 $\mathcal{D}$ 独立同分布采样而得的样例，因此， $h$ 与 $D$ 表现一
致的概率为

$P\left(\left(h(\boldsymbol{x}_1)=y_1\right)\wedge\ldots\wedge\left(h(\boldsymbol{x}_m)=y_m\right)\right)=\left(1-P\left(h\left(\boldsymbol{x}\right)\neq y\right)\right)^m$

$<(1-\epsilon)^m$

仅需保证泛化误差大于 $\epsilon$ ,且在训练集上表现完美的所有假设出现概率之和不大于 $\delta$ 即可：
$\begin{aligned}P(h\in\mathcal{H}:E(h)>\epsilon\wedge\widehat{E}(h)=0)&<|\mathcal{H}|(1-\epsilon)^{m}\\&<|\mathcal{H}|e^{-m\epsilon}\:,\end{aligned}$

$\mathcal{H} | e^{- m\epsilon }\leqslant \delta$ ,

可得
$m\geqslant\frac{1}{\epsilon}\big(\ln|\mathcal{H}|+\ln\frac{1}{\delta}\big).$

3.2 不可分情形

目标概念c往往不存在于假设空间中，对于任何h，假设空间中得任意一个假设都会在训练集上出现错误。

若训练集 $D$ 包含 $m$ 个从分布 $\mathcal{D}$ 上独立同分布采样而得的样例 $,0<\epsilon<1$ ,则对任意 $h\in\mathcal{H}$ ,有
$P\big(\widehat{E}(h)-E(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:,$

$P\big(E(h)-\widehat{E}(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:,$

$P\Big(\Big|E(h)-\widehat{E}(h)\Big|\geqslant\epsilon\Big)\leqslant2\exp(-2m\epsilon^2)\:.$
若训练集 $D$ 包含 $m$ 个从分布 $\mathcal{D}$ 上独立同分布采样而得的样
例 $,0<\epsilon<1$ ,则对任意 $h\in\mathcal{H}$ ,式(12.18)以至少 $1-\delta$ 的概率成立：
$\widehat{E}(h)-\sqrt{\frac{\ln{(2/\delta)}}{2m}}\leqslant E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{\ln{(2/\delta)}}{2m}}\:.$

样例数目 $m$ 较大时 $, h$ 的经验误差是其泛化误差很好的近似。对于有限假设空间 $\mathcal{H}$ ,我们有

若 $\mathcal{H}$ 为有限假设空间， $0<\delta<1$ ,则对任意 $h\in\mathcal{H}$ ,有
$P\Big(\Big|E(h)-\widehat{E}(h)\Big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(2/\delta)}{2m}}\Big)\geqslant1-\delta\:.$

当假设空间给定时，其中必存在一个泛化误差最小得假设，找到此假设得近似也是一个较好得目标，将此目标将PAC学习推广到目标概念不属于假设空间得情况，称为不可知学习。

不可知PAC可学习：令 $m$ 表示从分布 $\mathcal{D}$ 中独立同分布采样得到的样例数目， $0<\epsilon,\delta<1$ ,对所有分布 $\mathcal{D}$ ,若存在学习算法 £ 和多项式函数 poly $(\cdot,\cdot,\cdot,\cdot)$ ,使得对于任何 $m\geqslant$ poly $(1/\epsilon,1/\delta$ ,size $(\boldsymbol{x})$ ,size $(c)),\mathfrak{S}$ 能从假设空间 $\mathcal{H}$ 中输出满足式的

假设 $h :$

$P\big(E(h)-\min_{h'\in\mathcal{H}}E(h')\leqslant\epsilon\big)\geqslant1-\delta\:,$
则称假设空间是不可知 PAC 可学习的。

4 VC维

现实学习任务所面临得通常是无限假设空间，对此种情形得可学习性进行研究，需度量假设空间得复杂性。最常见得办法是考虑假设空间得VC维。
给定假设空间H和示例集D，H中每个假设h都能对D中示例赋予标记。
增长函数：表示假设空间对m个示例所能赋予标记得最大可能结果数。可能结果是越大，假设空间得表达能力越强，对学习任务得适应能力也越强。

$\Pi_{\mathcal{H}}(m)=\max_{\{\boldsymbol{x}_{1},\ldots,\boldsymbol{x}_{m}\}\subseteq\mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}_{1}\right),\ldots,h\left(\boldsymbol{x}_{m}\right)\right)\right|h\in\mathcal{H}\right|$

可使用增长函数来估计经验误差与泛化误差之间的关系：
对假设空间 $\mathcal{H},m\in\mathbb{N},0<\epsilon<1$ 和任意 $h\in\mathcal{H}$ 有 $P\big(\big|E(h)-\widehat{E}(h)\big|>\epsilon\big)\leqslant4\Pi_{\mathcal H}(2m)\exp\big(-\frac{m\epsilon^2}{8}\big).$
对二分类问题来说，假设空间中的假设对D中示例赋予标记的每种可能结果称为对D的一种对分。

定义VC维：
假设空间 $\mathcal{H}$ 的 VC 维是能被 $\mathcal{H}$ 打散的最大示例集的大小，即
$\mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^m\}\:.$

VC维等于d表明存在大小为d的示例集能被假设空间打散。

若存在大小为d的示例集能被 $\mathcal{H}$ 打散，但不存在任何大小为d+1的示例集能被 $\mathcal{H}$ 打散，则 $\mathcal{H}$ 的VC维是d。

VC维与增长函数有密切联系

1.若假设空间 $\mathcal{H}$ 的VC维为d，则
$\Pi_{\mathcal{H}}(m)\le\sum_{i=0}^{d}\begin{pmatrix}m \\ i \end{pmatrix}$
可以计算出增长函数的上界。

2.若假设空间 $\mathcal{H}$ 的VC维为d，则对任意整数 $m\ge d$ 有
$\Pi_{\mathcal{H}}(m)\le(\frac{e*m}{d})^d$
可由以上式子得到基于VC维的泛化误差界。

3.若假设空间 $\mathcal{H}$ 的 VC 维为 $d$ ,则对任意 $m>d,0<\delta<1$ 和

$h\in\mathcal{H}$ 有
$P\left(E(h)-\widehat{E}(h)\leqslant\sqrt{\frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}}\right)\geqslant1-\delta\:.$

有以下定理：任何VC维有限的假设空间 $\mathcal{H}$ 都是（不可知）PAC可学习的。

5 Rademacher复杂度

上一节描述的基于VC维的可学习性分析结果具有一定的普适性，但是由于没有考虑数据自身，基于VC维得到的泛化误差界通常比较松。

Rademacher复杂度是另一种刻画假设空间复杂度的途径，在一定程度上考虑了数据分布。

给定训练集D，假设h的经验误差为
$\tilde E(h)=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_ih(x_i)$

函数空间 $\mathcal{F}$ 关于 $Z$ 的经验 Rademacher 复杂度

$\widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\boldsymbol{\sigma}}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(\boldsymbol{z}_{i})\Big]\:.$
经验 Rademacher 复杂度衡量了函数空间 $\mathcal{F}$ 与随机噪声在集合 $Z$ 中的相关性。

函数空间 $\mathcal{F}$ 关于 $\mathcal{Z}$ 上分布 $\mathcal{D}$ 的 Rademacher 复杂度
$R_m(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_Z(\mathcal{F})\Big]\:.$

基于 Rademacher 复杂度可得关于函数空间 $\mathcal{F}$ 的泛化误差界。

对实值函数空间 $\mathcal{F}:\mathcal{Z}\to[0,1]$ ,根据分布 $\mathcal{D}$ 从 $\mathcal{Z}$ 中独立同分布采样得到示例集,以至少 $1-\delta$ 的概率有
$\mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}_{i})+2R_{m}(\mathcal{F})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:,$
$\mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}_{i})+2\widehat{R}_{Z}(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:.$

对二分类问题，有以下定理（给出了基于Rademacher复杂度的泛化误差界）：

对假设空间 $\mathcal{H}:\mathcal{X}\to\{-1,+1\}$ ,根据分布 $\mathcal{D}$ 从 $\mathcal{X}$ 中独立同分

布采样得到示例集 $D=\{\boldsymbol x_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_m\},\boldsymbol{x}_i\in\mathcal{X},0<\delta<1$ ,对任意 $h\in\mathcal{H}$ ,

以至少 $1-\delta$ 的概率有

$E(h)\leqslant\widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:,\\E(h)\leqslant\widehat{E}(h)+\widehat{R}_{D}(\mathcal{H})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:.$

可知道基于VC维的泛化误差界是分布无关，数据独立的，基于Rademacher复杂度的泛化误差界与分布有关，通常比基于VC维的泛化误差界更紧一些。

关于Rademacher复杂度与增长函数有定理如下：
假设空间的Rademacher复杂度 $R_m(\mathcal{H})$ 与增长函数 $\Pi_{\mathcal{H}}(m)\text{ 满足}\\R_{m}(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}$ .

6 稳定性

希望获得与算法有关的分析结果，可以通过稳定性分析来获得结果。

稳定性考察的是算法在输入发生变化时，输出是否会随之发生较大的变化。

定义训练集的两种变化：

$\ i \bullet D^{\backslash i}$ 表示移除 $D$ 中第 $i$ 个样例得到的集合
$D^{\setminus i}=\{\boldsymbol{z}_1,\boldsymbol{z}_2,\ldots,\boldsymbol{z}_{i-1},\boldsymbol{z}_{i+1},\ldots,\boldsymbol{z}_m\},$
$\bullet D^{i}$ 表示替换 $D$ 中第 $i$ 个样例得到的集合
$D^i=\{\boldsymbol{z}_1,\boldsymbol{z}_2,\ldots,\boldsymbol{z}_{i-1},\boldsymbol{z}_i^{\prime},\boldsymbol{z}_{i+1},\ldots,\boldsymbol{z}_m\},$
其中 $\boldsymbol{z}_i^{\prime}=(\boldsymbol{x}_i^{\prime},y_i^{\prime}),\boldsymbol{x}_i^{\prime}$ 服从分布 $\mathcal{D}$ 并独立于 $D .$

下面定义关于假设 $\mathfrak{E}_D$ 的几种损失。

泛化损失
$\ell(\mathcal{L},\mathcal{D})=\mathbb{E}_{\boldsymbol{x}\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)}\big[\ell(\mathcal{L}_{D},\boldsymbol{z})\big]\:.$
经验损失

$\widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D},\boldsymbol{z}_{i})\:.$

留一损失

$\ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}_{D\setminus i},\boldsymbol{z}_{i})\:.$

定义算法的均匀稳定性：
对任何 $x\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)$ ,若学习算法 $\mathfrak{S}$ 满足
$\begin{vmatrix}\ell(\mathfrak{L}_D,\boldsymbol{z})-\ell(\mathfrak{L}_{D^{\setminus i}},\boldsymbol{z})\end{vmatrix}\leqslant\beta\:,\:i=1,2,\ldots,m,$
则称 $\mathfrak{S}$ 关于损失函数 $\ell$ 满足 $\beta$ -均匀稳定性，

显然，若算法 $\mathfrak{S}$ 关于损失函数 $\ell$ 满足 $\beta$ -均匀稳定性，则有
$\begin{aligned}&\left|\ell(\mathcal{L}_{D},\boldsymbol{z})-\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})\right|\\&\leqslant\left|\ell(\mathcal{L}_{D},\boldsymbol{z})-\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})\right|+\left|\ell(\mathcal{L}_{D^{i}},\boldsymbol{z})-\ell(\mathcal{L}_{D^{\setminus i}},\boldsymbol{z})\right|\\&\leqslant2\beta\:,\end{aligned}$

若损失函数 $\ell$ 有界,则有定理如下：

给定从分布 $\mathcal{D}$ 上独立同分布采样得到的大小为 $m$ 的示例集 $D$ ,若学习算法 $\mathfrak{S}$ 满足关于损失函数 $\ell$ 的 $\beta$ -均匀稳定性，且损失函数 $\ell$ 的上界为 $M,0<\delta<1$ ,则对任意 $m\geqslant1$ ,以至少 $1-\delta$ 的概率有
$\ell(\mathcal{L},\mathcal{D})\leqslant\widehat{\ell}(\mathcal{L},D)+2\beta+\left(4m\beta+M\right)\sqrt{\frac{\ln(1/\delta)}{2m}}$
$\ell(\mathcal{L},\mathcal{D})\leqslant\ell_{loo}(\mathcal{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}\:.$

adchloe

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
机器学习——第十二章计算学习理论

目录1 基础知识2 PAC学习3 有限假设空间3.1 可分情形3.2 不可分情形4 VC维5 Rademacher复杂度6 稳定性1 基础知识该理论研究的是关于通过计算来进行学习的理论，目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据法分析结果指导算法设计。给定样例集D，假设χ\chiχ中的所有样本服从一个隐含未知的分布TTT,D中所有样本都是独立地从这个分布上采样而得。令h为χ到y\chi到yχ到y的一个映射，泛化误差为E(h;T)=Px∼T(h(x)≠y)E(h;T)=P_{x\s
复制链接

扫一扫