[机器学习]计算学习理论

最新推荐文章于 2021-09-27 16:08:31 发布

CristianoJason

最新推荐文章于 2021-09-27 16:08:31 发布

阅读量3.1k

点赞数

分类专栏：模式识别与机器学习文章标签：机器学习计算学习理论 PAC学习 VC维

本文链接：https://blog.csdn.net/CristianoJason/article/details/79057977

版权

模式识别与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文档记录了《机器学习》第 12 章计算学习理论相关内容

基本概念

计算学习理论的目的

分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。

泛化误差与经验误差

泛化误差：输入输出映射 $h(\mathcal{X})\mapsto\mathcal{Y}$ 在整个样本空间 $\mathcal{D}$ 上所表现出的误差。

$E(h;\mathcal{D})=P_{x\sim\mathcal{D}}(h(x)\neq y)$

任意两个映射之间的不合： $d(h_1,h_2)=P_{x\sim\mathcal{D}}(h_1(x)\neq h_2(x))$
经验误差：输入输出映射 $h(\mathcal{X})\mapsto\mathcal{Y}$ 在训练数据集 $D$ 上所表现出的误差。

$\hat{E}(h;D)=P_{x\sim D}(h(x)\neq y)$

经验误差为 0 则表示假设与样本空间一致。

由于 $D$ 是 $\mathcal{D}$ 的同分布采样，因此 $h$ 的泛化误差等于经验误差的期望。

常用不等式（P268）

Jesen 不等式
Hoeffding 不等式
McDiarmid 不等式

概率近似正确（Probably Approximately Correct）学习

基本符号

复杂度：size(⋅)
- 概念： $c$ ，从样本空间到标记空间的映射
- 目标概念： $\forall (x,y)\in\mathcal{D},c(x)=y$
- 概念类： $\mathcal{C}$ ，包含目标概念的集合
- 学习算法： $\mathfrak{L}$
- 假设： $h$ ，从样本空间到标记空间的映射
- 假设空间： $\mathcal{H}$ ，给定学习算法包含的所有假设的集合，依赖于学习算法存在
- 置信度： $\delta\in(0,1)$
- 误差参数： $\epsilon\in(0,1)$ ，经验误差的上界，预先设定的学习模型所应满足的误差要求
- 假设空间的可分性
  
  若目标概念 $c\in\mathcal{H}$ ，则 $\mathcal{H}$ 中存在假设使得所有样本输入的输出与真实标记一致，则称该问题对学习算法 $\mathfrak{L}$ 是可分的（一致的）。
  
  若不存在目标概念 $c\notin\mathcal{H}$ ，则称该问题对学习算法 $\mathfrak{L}$ 是不可分的（不一致的）。
  
  PAC 辨识
  
  对 $0<\epsilon,\delta<1, \forall c\in\mathcal{C},\mathcal{D}$ ，若存在学习算法 $\mathfrak{L}$ 能以至少 $1-\delta$ 的概率学得目标概念 $c$ 的近似 $h\in\mathcal{H}$ ，即：
  
  P(E(h)≤ϵ)≥1−δ
  
  则称该学习算法能从假设空间中辨识概念类 $\mathcal{C}$ 。
  
  PAC 可学习
  
  令 $m$ 是从样本分布空间 $\mathcal{D}$ 中独立同分布采样得到的样本 $x$ 的数目，若存在学习算法 $\mathfrak{L}$ 和多项式函数 $poly()$ ， $\forall m,m\geq poly(1/\epsilon,1/\delta,size(x),size(c))$ ，学习算法 $\mathfrak{L}$ 能从假设空间 $\mathcal{H}$ 中辨识概念类 $\mathcal{C}$ ，则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 而言是 PAC 可学习的。
  
  当 $\mathcal{H=C}$ 时，称恰 PAC 可学习。
  
  PAC 学习算法
  
  若学习算法 $\mathfrak{L}$ 使概念类 $\mathcal{C}$ 是 PAC 可学习的，且运行时间是多项式函数 $poly(1/\epsilon,1/\delta,size(x),size(c))$ ，则称概念类 $\mathcal{C}$ 是高效 PAC 可学习的， $\mathfrak{L}$ 为概念类 $\mathcal{C}$ 的 PAC 学习算法。
  
  样本复杂度
  
  满足 PAC 学习算法 $\mathfrak{L}$ 所需的最小样本数 $m\geq poly(1/\epsilon,1/\delta,size(x),size(c))$ ，称为 $\mathfrak{L}$ 的样本复杂度。
  
  假设空间复杂度
  
  有限假设空间
  
  $|\mathcal{H}|$ 有限时的假设空间。
  
  可分情形
  
  在可分有限假设空间中，一定能从假设空间找到一个假设 $h$ 满足概念要求，即训练集上表现完美，所需的样本数约束条件为：
  
  m≥1ϵ(ln||+ln1δ)
  
  在该约束条件下，假设 $h$ 的泛化误差随着样本数 $m$ 的增加收敛到 0，收敛速率为 $O(\frac{1}{m})$ ，即给定样本数 $m$ 时，学习器的泛化误差下界为 $\frac{1}{m}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})$ 。
  
  不可分情形
  - 不可知 PAC 可学习：如果学习算法 $\mathfrak{L}$ 能够学出满足如下约束条件的假设 $h$ ，则称假设空间 $\mathcal{H}$ 是不可知 PAC 学习的。
    
    $P (E (h) - min h' \in  E (h') \leq ϵ) \geq 1 - δ$ $P(E(h)-\min_{h'\in\mathcal{H}}E(h')\leq\epsilon)\geq 1-\delta$
  - 高效不可知 PAC 可学习：在不可知 PAC 可学习中，如果学习算法 $\mathfrak{L}$ 的运行时间也是多项式函数 $poly(1/\epsilon,1/\delta,size(x),size(c))$ ，则称假设空间 $\mathcal{H}$ 是高效不可知 PAC 学习的；学习算法 $\mathfrak{L}$ 称为 $\mathcal{H}$ 的高效不可知 PAC 学习算法。
  无限假设空间
  
  VC 维
  
  经验风险最小化（Empirical Risk Minimization）原则
  
  令 $h$ 为学习算法 $\mathfrak{L}$ 的输出假设，满足
  
  Ê (h)=minh′∈Ê (h′)
  
  则称 $\mathfrak{L}$ 满足经验风险最小化原则。
  
  增长函数
  
  设假设 $h$ 对训练集 $D$ 中样本的标记结果为：
  
  h|D={(h(x1),(h(x2),...,(h(xm))}
  
  对所有的 $m\in\mathbb{N}$ ，假设空间的增长函数为：
  
  Π=max{x1,x2,...xm}⊆|{(h(x1),(h(x2),...,(h(xm))|h∈}|
  
  表示假设空间对 $m$ 个样本所能赋予标记的最大可能数，该值越大则假设空间的表示能力越强。
  
  对分和打散
  
  尽管假设空间的大小可能是无穷的，但是对于训练集 $D$ 的可能标记结果数是有限的。
  - 对分：在二分类问题中，假设空间对训练集的每种标记结果称为对 $D$ 的一种对分。
  - 打散：如果假设空间能实现样本集上所有对分，即假设空间的增长函数 $\Pi_{\mathcal{H}}(m)=2^m$ ，则称样本集 $D$ 能被假设空间 $\mathcal{H}$ 打散。
  VC 维
  
  假设空间 $\mathcal{H}$ 的 VC 维是能被 $\mathcal{H}$ 打散的最大样本集的大小：
  
  VC()=max{m:Π(m)=2m}=d
  - 只要存在大小为 $d$ 的样本集能被假设空间打散即可。
  - 不存在大小为 $d+1$ 的样本集能被假设空间打散。
  - 分布无关（数据独立）性：VC 维的泛化误差界只与样本数目有关，并且收敛速率为 $O(\frac{1}{\sqrt{m}})$ ，与数据分布 $\mathcal{D}$ 无关。
  - 增长函数上界：
    - 对任意 $m\in\mathbb{N}$ ： $\Pi_{\mathcal{H}}(m)\leq\sum_{i=0}^d\binom{m}{i}$
    - $m\geq d$ ： $\Pi_{\mathcal{H}}(m)\leq(\frac{e\cdot m}{d})^d$
  - 任何 VC 维有限的假设空间都是（不可知） PAC 学习的。
  Rademacher 复杂度?？？
  
  在一定程度上考虑了数据的分布。
  
  稳定性
  
  考察算法在输⼊(训练集)发⽣变化时，输出是否发⽣较⼤的变化。
  
  训练集的两种变化
  - 移除： $D^{\setminus i}$
  - 替换： $D^i$
  损失函数
  
  损失函数刻画了学习算法在训练集上预测标记与真实标记的差别：
  
  l(?D(x),y):×→ℝ+
  
  简记为 $l(\mathfrak{L}_D,z=(x,y))$ 。
  - 泛化损失： $l(\mathfrak{L},D)=\mathbb{E}_{x\in\mathcal{X},z={x,y}}[l(\mathfrak{L}_D,z)]$
  - 经验损失： $\hat{l}(\mathfrak{L},D)=\frac{1}{m}\sum_{i=1}^ml(\mathfrak{L}_D,z_i)$
  - 留一损失： $l_{loo}(\mathfrak{L},D)=\frac{1}{m}\sum_{i=1}^ml(\mathfrak{L}_{D^{\setminus{i}}},z_i)$
  均匀稳定性
  - β -均匀稳定性：学习算法满足对所有的 i 有 |l(?D,z)−l(?D∖i,z)|≤β
    - 替换： $|l(\mathfrak{L}_D,z)-l(\mathfrak{L}_{D^i},z)|\leq 2\beta$
  - 对于损失函数，若学习算法的输出满足经验损失最小化，则称算法满足经验风险最小化。