2023.10.23学习-计算学习理论1
如何刻划“学习”的过程?
考虑二分类问题,独立同分布样本(训练集):
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
m
,
y
m
)
}
,
y
i
∈
γ
=
{
−
1
,
+
1
}
D=\lbrace(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\rbrace,y_i\in \gamma = \lbrace-1,+1\rbrace
D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈γ={−1,+1}
令h为 x 到 γ 的一个映射,则
泛化误差:分类器的期望误差
E
(
h
;
D
)
=
P
x
∼
D
(
h
(
x
)
≠
y
)
E(h;\cal D)=P_{x\sim D}(h(x)\neq y)
E(h;D)=Px∼D(h(x)=y)
经验误差:分类器在给定样例集上的平均误差
E
^
(
h
;
D
)
=
1
m
∑
i
=
1
m
I
(
h
(
x
i
)
≠
y
i
)
\widehat{E}(h;\cal {D}\it )=\frac 1 m \sum \limits^m\limits_{i=1}\Bbb I(h(x_i)\neq y_i)
E
(h;D)=m1i=1∑mI(h(xi)=yi)
误差参数ε:
ε为E(h)的上限,E(h) <= ε 即表示预先设定学得的模型应满足的误差要求。
一致性:
若 h 在数据集 D(训练集)上的经验误差为0,则称 h 与 D 一致。
不合(disagreement):
对于任意两个映射h1、h2,通过“不合”度量它们之间的差别(两个模型预测x不相等的概率):
d
(
h
1
,
h
2
)
=
P
x
∼
D
(
h
1
(
x
)
≠
h
2
(
x
)
)
d(h_1,h_2)=P_{x\sim \cal D}(h_1(x)\neq h_2(x))
d(h1,h2)=Px∼D(h1(x)=h2(x))
概念(concept):
从样本空间 X 到标记空间 y 的映射,决定x的真实标记y;若对任何样例 (x, y) 均有 c(x) = y 成立(即均符合真实情况),则称c为目标概念
假设空间(hypothesis space):
给定学习算法L,它所考虑的所有可能概念的集合为假设空间,用 H 表示。(H为该算法考虑的所有分类映射h的集合)
学习器学习的过程可以视为 L 在 H 中搜索的过程。
可分的(separable):
目标概念 c ∈ H,即 H 中存在一种假设h能将所有示例正确分开(与真实标记一致)。
不可分的(non-separable):
H 中不存在任何假设h能将所有示例正确分开。
概率近似正确(PAC: Probably Approximately Correct):
以较大概率学得误差满足预设上限(E(h) <= ε)的模型
较大概率:设定置信度δ(常用0.05),要求
P
(
E
(
h
)
≤
ϵ
)
≥
1
−
δ
P(E(h) \leq \epsilon) \geq 1-\delta
P(E(h)≤ϵ)≥1−δ
则称学习算法L能从假设空间 H 中PAC辨识概念类 C。
PAC可学习(PAC Learnable):
m为从分布D中独立同分布采样得到的样例数目,若使得任何m满足多项式函数
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c))
m≥poly(1/ϵ,1/δ,size(x),size(c))
学习算法L能从假设空间H中PAC辨识概念类C,
则称概念类 C 对假设空间 H 是PAC可学习的,简称概念类 C 是PAC可学习的。
这个定义说明在PAC可学习的要求下,样例数目m与误差ε、置信度δ、数据复杂度size(x)、目标概念的复杂度size©都有关。
若L的运行时间也是多项式函数 poly(1/ε, 1/δ, size(x), size©),则称概念类 C 是高效PAC可学习的。
样本复杂度(Sample Complexity):
满足PAC学习算法L所需的
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c))
m≥poly(1/ϵ,1/δ,size(x),size(c))
中最小的m,称为学习算法 L 的样本复杂度。
假定学习算法L处理每个样本的时间为常数,则L的时间复杂度等价于其样本复杂度。
假设空间复杂度
H越大,其包含任意目标概念的可能性也越大,但找到从中找到某个目标概念的难度也越大。
H有限时,称为“有限假设空间”,否则为“无限假设空间‘'。
假设空间的复杂度是影响学习任务难度的重要因素之一。
PAC学习刻划了机器学习的能力,解释了需要多少样例才能获得较好的模型,它和误差参数、置信度、样本复杂度、假设空间复杂度有关。
有限假设空间
(1)可分情况:假设空间 H 中存在目标概念 c。
需要多少样例(m)才能学得目标概念 c 的有效近似?
m
≥
1
ϵ
(
ln
∣
H
∣
+
ln
1
δ
)
m \geq \frac 1 \epsilon(\ln| \cal H|+\ln\frac 1 \delta)
m≥ϵ1(ln∣H∣+lnδ1)
在可分情况下,有限假设空间 H 都是PAC可学习的,输出假设 h 的泛化误差随样例数目的增多而收敛至0。
(2)不可分情况:
在有限假设集的情况下,当样本大小m足够大时,h的经验误差是泛化误差很好的近似,可以由定理12.1得出:
P
(
∣
E
(
h
)
−
E
^
(
h
)
∣
≤
ln
∣
H
∣
+
ln
(
2
/
δ
)
2
m
)
P(|E(h)-\widehat{E}(h)| \leq \sqrt{\frac {\ln|\cal H|+\ln (2/\delta)} {2m}})
P(∣E(h)−E
(h)∣≤2mln∣H∣+ln(2/δ))
所以,给出了一种通用的学习原则:
经验风险最小化(ERM):若h满足
E
^
(
h
)
=
min
h
′
∈
H
E
^
(
h
′
)
\widehat{E}(h) = \mathop{\min}_{h'\in \cal H}\widehat{E}(h')
E
(h)=minh′∈HE
(h′)
则称L为满足经验风险最小化原则的算法。
在 c ∉ H 时,可以把PAC学习的定义做如下推广:
不可知PAC可学习(agnostic PAC Learnable):
m为从分布D中独立同分布采样得到的样例数目,若使得任何m满足多项式函数
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
m \geq poly(1/ \epsilon,1/ \delta,size(x),size(c))
m≥poly(1/ϵ,1/δ,size(x),size(c))
学习算法L能从假设空间 H 中输出满足下式的假设 h:
P
(
E
(
h
)
−
min
h
′
∈
H
E
(
h
′
)
≤
ϵ
)
≥
1
−
δ
P(E(h)-\mathop{\min}_{h' \in H}E(h')\leq \epsilon) \geq 1-\delta
P(E(h)−minh′∈HE(h′)≤ϵ)≥1−δ
则称假设空间 H 是不可知PAC可学习的。
有限假设集是不可知PAC可学习的。