本文档记录了《机器学习》第 12 章计算学习理论相关内容
基本概念
计算学习理论的目的
分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
泛化误差与经验误差
泛化误差:输入输出映射 h()↦ 在整个样本空间 上所表现出的误差。
E(h;)=Px∼(h(x)≠y)
任意两个映射之间的不合: d(h1,h2)=Px∼(h1(x)≠h2(x))
经验误差:输入输出映射 h()↦ 在训练数据集 D 上所表现出的误差。
Ê (h;D)=Px∼D(h(x)≠y) 经验误差为 0 则表示假设与样本空间
一致
。
由于
D
是
常用不等式(P268)
- Jesen 不等式
- Hoeffding 不等式
- McDiarmid 不等式
概率近似正确(Probably Approximately Correct)学习
基本符号
- 复杂度:
size(⋅) - 概念: c ,从样本空间到标记空间的映射
- 目标概念:
∀(x,y)∈,c(x)=y - 概念类: ,包含目标概念的集合
- 学习算法: ?
- 假设: h ,从样本空间到标记空间的映射
- 假设空间:
,给定学习算法包含的所有假设的集合,依赖于学习算法存在 - 置信度: δ∈(0,1)
- 误差参数: ϵ∈(0,1) ,经验误差的上界,预先设定的学习模型所应满足的误差要求
假设空间的可分性
若目标概念 c∈ ,则 中存在假设使得所有样本输入的输出与真实标记一致,则称
该问题
对学习算法 ? 是可分的(一致的)。若不存在目标概念 c∉ ,则称
该问题
对学习算法 ? 是不可分的(不一致的)。PAC 辨识
对 0<ϵ,δ<1,∀c∈, ,若存在学习算法 ? 能以至少 1−δ 的概率学得目标概念 c 的近似
h∈ ,即:P(E(h)≤ϵ)≥1−δ则称该学习算法能从假设空间中辨识概念类 。
PAC 可学习
令 m 是从样本分布空间
中独立同分布采样得到的样本 x 的数目,若存在学习算法? 和多项式函数 poly() , ∀m,m≥poly(1/ϵ,1/δ,size(x),size(c)) ,学习算法 ? 能从假设空间 中辨识概念类 ,则称概念类 对假设空间 而言是 PAC 可学习的。当 = 时,称
恰 PAC 可学习
。PAC 学习算法
若学习算法 ? 使概念类 是 PAC 可学习的,且运行时间是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)) ,则称概念类 是
高效 PAC 可学习的
, ? 为概念类 的 PAC 学习算法。样本复杂度
满足 PAC 学习算法 ? 所需的最小样本数 m≥poly(1/ϵ,1/δ,size(x),size(c)) ,称为 ? 的样本复杂度。
假设空间复杂度
有限假设空间
|| 有限时的假设空间。
可分情形
在可分有限假设空间中,一定能从假设空间找到一个假设 h 满足概念要求,即训练集上表现完美,所需的样本数约束条件为:
m≥1ϵ(ln||+ln1δ) 在该约束条件下,假设 h 的泛化误差随着样本数
m 的增加收敛到 0,收敛速率为 O(1m) ,即给定样本数 m 时,学习器的泛化误差下界为1m(ln||+ln1δ) 。不可分情形
不可知 PAC 可学习:如果学习算法 ? 能够学出满足如下约束条件的假设 h ,则称假设空间
是不可知 PAC 学习的。P(E(h)−minh′∈E(h′)≤ϵ)≥1−δ高效不可知 PAC 可学习:在不可知 PAC 可学习中,如果学习算法 ? 的运行时间也是多项式函数 poly(1/ϵ,1/δ,size(x),size(c)) ,则称假设空间 是高效不可知 PAC 学习的;学习算法 ? 称为 的高效不可知 PAC 学习算法。
无限假设空间
VC 维
经验风险最小化(Empirical Risk Minimization)原则
令 h 为学习算法
? 的输出假设,满足Ê (h)=minh′∈Ê (h′)则称 ? 满足经验风险最小化原则。
增长函数
设假设 h 对训练集
D 中样本的标记结果为:h|D={(h(x1),(h(x2),...,(h(xm))}对所有的 m∈ℕ ,假设空间的增长函数为:
Π=max{x1,x2,...xm}⊆|{(h(x1),(h(x2),...,(h(xm))|h∈}|表示假设空间对 m 个样本所能赋予标记的最大可能数,该值越大则假设空间的表示能力越强。
对分和打散
尽管假设空间的大小可能是无穷的,但是对于训练集
D 的可能标记结果数是有限的。- 对分:在二分类问题中,假设空间对训练集的每种标记结果称为对
D
的一种
对分
。 - 打散:如果假设空间能实现样本集上
所有对分
,即假设空间的增长函数Π(m)=2m ,则称样本集 D 能被假设空间 打散
。
VC 维
假设空间 的 VC 维是能被 打散的最大样本集的大小:
VC()=max{m:Π(m)=2m}=d- 只要存在大小为 d 的样本集能被假设空间打散即可。
- 不存在大小为
d+1 的样本集能被假设空间打散。 - 分布无关(数据独立)性:VC 维的泛化误差界只与样本数目有关,并且收敛速率为 O(1m√) ,与数据分布 无关。
- 增长函数上界:
- 对任意 m∈ℕ : Π(m)≤∑di=0(mi)
- m≥d : Π(m)≤(e⋅md)d
- 任何 VC 维有限的假设空间都是(不可知) PAC 学习的。
Rademacher 复杂度???
在一定程度上考虑了数据的分布。
稳定性
考察算法在输⼊(训练集)发⽣变化时,输出是否发⽣较⼤的变化。
训练集的两种变化
- 移除: D∖i
- 替换: Di
损失函数
损失函数刻画了学习算法在训练集上预测标记与真实标记的差别:
l(?D(x),y):×→ℝ+简记为 l(?D,z=(x,y)) 。
- 泛化损失: l(?,D)=?x∈,z=x,y[l(?D,z)]
- 经验损失: l̂ (?,D)=1m∑mi=1l(?D,zi)
- 留一损失: lloo(?,D)=1m∑mi=1l(?D∖i,zi)
均匀稳定性
-
β
-均匀稳定性:学习算法满足对所有的
i
有
|l(?D,z)−l(?D∖i,z)|≤β
- 替换: |l(?D,z)−l(?Di,z)|≤2β
- 对于损失函数,若学习算法的输出满足经验
损失
最小化,则称算法满足经验风险
最小化。