机器学习 第12章-计算学习理论
12.1 基础知识
顾名思义,计算学习理论(computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
给定样例集
D
D
D。假设
X
X
X中的所有样本服从一个隐含未知的分布
D
D
D,
D
D
D中所有样本都是独立地从这个分布上采样而得,即独立同分布(independent and identically distributed)样本令
h
h
h为从
X
X
X到
Y
Y
Y的一个映射,其泛化误差为
E
(
h
;
D
)
=
P
x
∼
D
(
h
(
x
)
≠
y
)
E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)
E(h;D)=Px∼D(h(x)=y)
h
h
h在
D
D
D上的经验误差为:
E
^
(
h
;
D
)
=
1
m
∑
i
=
1
m
Ⅱ
(
h
(
x
i
)
≠
y
i
)
\hat E(h;D)={1\over m}∑^m_{i=1}Ⅱ(h(x_i)≠y_i)
E^(h;D)=m1i=1∑mⅡ(h(xi)=yi)
我们会用到几个常用不等式:
Jensen不等式:对于凸函数
f
(
x
)
f(x)
f(x),有
f
(
E
(
X
)
)
≤
E
(
f
(
x
)
)
f(E(X))≤E(f(x))
f(E(X))≤E(f(x))
Hoeffding不等式:若有m个独立随机变量,且对任意的i∈[0,1],则对任意ϵ>0,那么有
P
(
1
m
∑
i
=
1
m
x
i
−
1
m
∑
i
=
1
m
E
(
x
i
)
⩾
ϵ
)
⩽
e
x
p
(
−
2
m
ϵ
2
)
P({1\over m}∑^m_{i=1}x_i−{1\over m}∑^m_{i=1}E(x_i)⩾ϵ)⩽exp(−2mϵ^2)
P(m1i=1∑mxi−m1i=1∑mE(xi)⩾ϵ)⩽exp(−2mϵ2)
P
(
∣
1
m
∑
i
=
1
m
x
i
−
1
m
∑
i
=
1
m
E
(
x
i
)
∣
⩾
ϵ
)
⩽
2
e
x
p
(
−
2
m
ϵ
2
)
P(|{1\over m}∑^m_{i=1}x_i−{1\over m}∑^m_{i=1}E(x_i)|⩾ϵ)⩽2exp(−2mϵ^2)
P(∣m1i=1∑mxi−m1i=1∑mE(xi)∣⩾ϵ)⩽2exp(−2mϵ2)
McDiarmid不等式: 若有m个独立随机变量,且对任意的i∈[0,1],则有
s
u
p
x
1
,
…
,
x
m
,
x
i
′
∣
f
(
x
1
,
…
,
x
m
)
−
f
(
x
1
,
…
,
x
i
−
1
,
x
i
′
,
x
i
+
1
,
…
,
x
m
)
∣
⩽
c
i
sup_{x_1,…,x_m,x^′_i}∣f(x_1,…,x_m)−f(x_1,…,x_{i−1},x^′_i,x_{i+1},…,x_m)∣⩽c_i
supx1,…,xm,xi′∣f(x1,…,xm)−f(x1,…,xi−1,xi′,xi+1,…,xm)∣⩽ci
12.2 PAC学习
计算学习理论中最基本的是概率近似正确(ProbablyApproximatelyCorrect,简称 PAC)学习理论。“概率近似正确”这个名字看起来有点古怪,我们稍后再解释
令 c c c表示“概念”(concept),这是从样本空间 X X X到标记空间 Y Y Y的映射,它决定示例 x x x的真实标记 y y y,若对任何样例 ( x , y ) (x,y) (x,y)有 c ( x ) = y c(x)=y c(x)=y成立,则称 c c c为目标概念;所有我们希望学得的目标概念所构成的集合称为“概念类”(conceptclass),用符号 C C C表示
给定学习算法只它所考虑的所有可能概念的集合称为“假设空间”(hypothesisspace),用符号 H H H表示。由于学习算法事先并不知道概念类的真实存在,因此 H H H和 C C C通常是不同的,学习算法会把自认为可能的目标概念集中起来构成 H H H,对 h ∈ H h∈H h∈H,由于并不能确定它是否真是目标概念,因此称为“假设”(hypothesis)。显然,假设 h h h也是从样本空间 X X X到标记空间 Y Y Y的映射。
若目标概念 c ∈ H c∈H c∈H,则 H H H中存在假设能将所有示例按与真实标记一致的方式完全分开,我们称该问题对学习算法 L \mathcal{L} L是“可分的”(separable),亦称“-致的”(consistent);若 c ∉ H c∉H c∈/H,则 H H H中不存在任何假设能将所有示例完全正确分开,称该问题对学习算法 L \mathcal{L} L是“不可分的”(non-separable),亦称“不一致的”(non-consistent)。
令
δ
δ
δ表示置信度,那么可以定义:
PAC辨识:对
0
<
ϵ
,
δ
<
1
0<ϵ,δ<1
0<ϵ,δ<1,所有
c
∈
C
c∈C
c∈C和分布
D
D
D,若存在学习算法
L
\mathcal{L}
L,其输出假设
h
∈
H
h∈H
h∈H满足
P
(
E
(
h
)
≤
ϵ
)
≥
1
−
δ
P(E(h)≤ϵ)≥1−δ
P(E(h)≤ϵ)≥1−δ
则称学习算法
L
\mathcal{L}
L能从假设空间
H
H
H中PAC辨识概念类
C
C
C
PAC可学习:令m表示从分布 D D D中独立同分布采样得到的样例数目, 0 < ϵ , δ < 1 0<ϵ,δ<1 0<ϵ,δ<1,对所有分布T,若存在学习算法 L \mathcal{L} L和多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) poly(·,·,·,·) poly(⋅,⋅,⋅,⋅),使得对任何 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m≥poly(1/ϵ,1/δ,size(x),size(c)) m≥poly(1/ϵ,1/δ,size(x),size(c)), L \mathcal{L} L能从假设空间PAC辨识概念类 C C C,那么就可以说概念类 C C C对假设空间 H H H而言是PAC可学习的,简称为概念类 C C C是PAC可学习的。
PAC学习算法:若学习算法 L \mathcal{L} L是概念类 C C C为PAC可学习的,且 L \mathcal{L} L的运行时间也是多项式函数 p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) poly(1/ϵ,1/δ,size(x),size(c)) poly(1/ϵ,1/δ,size(x),size(c)),那么称概念类 C C C是高效PAC可学习的,称 L \mathcal{L} L为概念类C的PAC学习算法。
样本复杂度:满足PAC学习算法 L \mathcal{L} L所需的 m > p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m > poly(1/ϵ,1/δ,size(x),size(c)) m>poly(1/ϵ,1/δ,size(x),size(c))中最小的 m m m,称为学习算法 L \mathcal{L} L的样本复杂度。
PAC 学习中一个关键因素是假设空间 H H H的复杂度。 H H H包含了学习算法 L \mathcal{L} L所有可能输出的假设,若在 PAC 学习中假设空间与概念类完全相同,即 H = C H=C H=C这称为“恰 PAC 可学习”(properly PAC learnable);直观地看,这意味着学习算法的能力与学习任务“恰好匹配”。然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类 C C C通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。显然,更重要的是研究假设空间与概念类不同的情形,即 H ≠ C H≠C H=C。一般而言, H H H越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大。 ∣ H ∣ |H| ∣H∣有限时,我们称 "为“有限假设空间”,否则称为“无限假设空间”
12.3 有限假设空间
12.3.1 可分情形
可分情形意味着目标概念 c c c属于假设空间,即 c ∈ H c∈H c∈H。给定包含 m m m个样例的训练集 D D D,如何找出满足误差参数的假设呢?
容易想到一种简单的学习策略:既然 D D D中样例标记都是由目标概念 c c c赋予的,并且 c c c存在于假设空间中,那么,任何在训练集 D D D上出现标记错误的假设肯定不是目标概念 c c c。于是,我们只需保留与 D D D一致的假设,剔除与 D D D不一致的假设即可。若训练集 D D D足够大,则可不断借助 D D D中的样例剔除不一致的假设,直到 H中仅剩下一个假设为止,这个假设就是目标概念c 通常情形下,由于训练集规模有限,假设空间"中可能存在不止一个与D一致的“等效”假设,对这些等效假设,无法根据 D来对它们的优劣做进一步区分。
到底需多少样例才能学得目标概念 c c c的有效近似呢?对 PAC 学习来说,只要训练集 D D D的规模能使学习算法 L \mathcal{L} L以概率 1 − δ 1-δ 1−δ找到目标假设的 ϵ ϵ ϵ近似即可。
我们先估计泛化误差大于
ϵ
ϵ
ϵ但在训练集上仍表现完美的假设出现的概率。假定
h
h
h的泛化误差大于
ϵ
ϵ
ϵ,对分布
D
D
D上随机采样而得的任何样例
(
x
,
y
)
(x,y)
(x,y)有
P
(
h
(
x
)
=
y
)
<
1
−
ϵ
P(h(x)=y)<1-ϵ
P(h(x)=y)<1−ϵ
由于
D
D
D包含
m
m
m个从
D
D
D独立同分布采样而得的样例,因此
h
h
h和
D
D
D表现一致的概率为:
P
(
(
h
(
x
1
)
=
y
1
)
∧
…
∧
(
h
(
x
m
)
=
y
m
)
)
=
(
1
−
P
(
h
(
x
)
≠
y
)
)
m
<
(
1
−
ϵ
)
m
P((h(x_1)=y_1)∧…∧(h(x_m)=y_m))=(1−P(h(x)≠y))^m<(1−ϵ)^m
P((h(x1)=y1)∧…∧(h(xm)=ym))=(1−P(h(x)=y))m<(1−ϵ)m
最终可得:
m
⩾
1
ϵ
(
l
n
∣
H
∣
+
l
n
1
δ
)
。
m⩾{1\over ϵ}(ln|H|+ln{1\over δ})。
m⩾ϵ1(ln∣H∣+lnδ1)。
由此可知,有限假设空间
H
H
H都是PAC可学习的,输出假设
h
h
h的泛化误差随样例数目的增多而收敛到0,收敛速率为
O
(
1
m
)
O({1\over m})
O(m1)
12.3.2 不可分情形
目标概念不存在于假设空间中,假设空间中的任何一个假设都会在训练集上面出现错误。通过Hoeffding不等式可以知道
若训练集包含
m
m
m个从分布
D
D
D上独立同分布采样而得得样例,
0
<
ϵ
<
1
0<ϵ<1
0<ϵ<1。对于任意
h
∈
H
h∈H
h∈H,可以得到:
P
(
E
^
(
h
)
−
E
(
h
)
⩾
ϵ
)
⩽
e
x
p
(
−
2
m
ϵ
2
)
P(\hat E(h)−E(h)⩾ϵ)⩽exp(−2mϵ^2)
P(E^(h)−E(h)⩾ϵ)⩽exp(−2mϵ2)
P
(
E
(
h
)
−
E
^
(
h
)
⩾
ϵ
)
⩽
e
x
p
(
−
2
m
ϵ
2
)
P(E(h)−\hat E(h)⩾ϵ)⩽exp(−2mϵ^2)
P(E(h)−E^(h)⩾ϵ)⩽exp(−2mϵ2)
P
(
∣
E
(
h
)
−
E
^
(
h
)
∣
∣
⩾
ϵ
)
⩽
2
e
x
p
(
−
2
m
ϵ
2
)
P(∣E(h)−\hat E(h)∣∣⩾ϵ)⩽2exp(−2mϵ^2)
P(∣E(h)−E^(h)∣∣⩾ϵ)⩽2exp(−2mϵ2)
若训练集
D
D
D包含
m
m
m个从分布
D
D
D上独立同分布采样而得的样例,
0
<
ε
<
1
0<ε<1
0<ε<1,则对任意
h
∈
H
h∈H
h∈H,下式以至少
1
−
δ
1-δ
1−δ的概率成立:
E
^
(
h
)
−
l
n
(
2
/
δ
)
2
m
⩽
E
(
h
)
⩽
E
^
(
h
)
+
l
n
(
2
/
δ
)
2
m
\hat E(h)−\sqrt {ln(2/δ)\over 2m}⩽E(h)⩽\hat E(h)+\sqrt {ln(2/δ)\over 2m}
E^(h)−2mln(2/δ)⩽E(h)⩽E^(h)+2mln(2/δ)
若
H
H
H为有限假设空间,
0
<
δ
<
1
0<δ<1
0<δ<1,则对任意
h
∈
H
h∈H
h∈H,有
P
(
∣
E
(
h
)
−
E
^
(
h
)
∣
⩽
l
n
∣
H
∣
+
l
n
(
2
/
δ
)
2
m
)
⩾
1
−
δ
P(∣E(h)−\hat E(h)∣⩽\sqrt{{ln|H|+ln(2/δ)}\over 2m})⩾1−δ
P(∣E(h)−E^(h)∣⩽2mln∣H∣+ln(2/δ))⩾1−δ
显然,当 c ∉ H c∉H c∈/H时,学习算法 L \mathcal{L} L无法学得目标概念 c c c的 ϵ ϵ ϵ近似。但是,当假设空间 H H H给定时,其中必存在一个泛化误差最小的假设,找出此假设的近似也不失为一个较好的目标。 H H H中泛化误差最小的假设是 argminheqE(h)于是,以此为目标可将PAC学习推广到c的情况,这称为“不可知学习”(agnostic learning)。相应的,我们有:
不可知PAC可学习:令m表示从分布T中独立同分布采样得到得,
0
<
ϵ
,
δ
<
1
0<ϵ,δ<1
0<ϵ,δ<1,对所有分布T,如果存在学习算法和多项式函数使得对于任何
m
≥
p
o
l
y
(
1
/
ϵ
,
1
/
δ
,
s
i
z
e
(
x
)
,
s
i
z
e
(
c
)
)
m≥poly(1/ϵ,1/δ,size(x),size(c))
m≥poly(1/ϵ,1/δ,size(x),size(c)),学习算法可以从假设空间中输出满足下式得假设h
P
(
E
(
h
)
−
m
i
n
h
′
∈
H
E
(
h
′
)
⩽
ϵ
)
⩾
1
−
δ
P(E(h)−min_{h′∈H}E(h′)⩽ϵ)⩾1−δ
P(E(h)−minh′∈HE(h′)⩽ϵ)⩾1−δ
那么就称假设空间H是不可知PAC可学习的。
12.4 VC维
现实学习任务所面临的通常是无限假设空间,例如实数域中的所有区间、Rd空间中的所有线性超平面。欲对此种情形的可学习性进行研究,需度量假设空间的复杂度。最常见的办法是考虑假设空间的“VC维”(Vapnik-Chervonenkis dimension)
介绍 VC 维之前,我们先引入几个概念:增长函数(growth function)、对分(dichotomy)和打散(shattering)
增长函数:给定假设空间
H
H
H和示例集
D
D
D,
H
H
H中每个假设h都能对D 中示例赋予标记,标记结果可表示为
h
∣
D
h|_D
h∣D,随着样本数量m的增大,假设空间对样本集
D
D
D的标记结果也会增大,增长函数则表示假设空间对
m
m
m个样本的数据集
D
D
D标记的最大可能结果数。假设空间H的增长函数为:
Π
H
(
m
)
=
m
a
x
{
x
1
,
…
,
x
m
}
⊆
X
∣
{
(
h
(
x
1
)
,
…
,
h
(
x
m
)
)
∣
h
∈
H
}
∣
Π_H(m)=max_{\{x1,…,xm\}⊆X}|\{(h(x_1),…,h(x_m))∣h∈H\}|
ΠH(m)=max{x1,…,xm}⊆X∣{(h(x1),…,h(xm))∣h∈H}∣
可以利用增长函数来估计经验误差与泛化误差之间的关系
P
(
∣
E
(
h
)
−
E
^
(
h
)
∣
>
ϵ
)
⩽
4
Π
H
(
2
m
)
e
x
p
(
−
m
ϵ
2
8
)
P(∣E(h)−\hat E(h)∣>ϵ)⩽4Π_H(2m)exp(−{mϵ^2\over 8})
P(∣E(h)−E^(h)∣>ϵ)⩽4ΠH(2m)exp(−8mϵ2)
假设空间
H
H
H中不同的假设对于
D
D
D中示例赋予标记的结果可能相同,也可能不同;尽管
H
H
H可能包含无穷多个假设,但其对
D
D
D中示例赋予标记的可能结果数是有限的:对
m
m
m个示例,最多有
2
m
2^m
2m个可能结果。
对二分类问题来说, H H H中的假设对 D D D中示例赋予标记的每种可能结果称为对 D D D的一种“对分”。若假设空间M能实现示例集D上的所有对分,即 Ⅱ H ( m ) = 2 m Ⅱ_H(m)=2^m ⅡH(m)=2m,则称示例集D能被假设空间 H H H“打散”。
假设空间
H
H
H的VC维是能被
H
H
H打散的最大示例集的大小,即
V
C
(
H
)
=
m
a
x
m
:
Π
H
(
m
)
=
2
m
VC(H)=max{m:Π_H(m)=2^m}
VC(H)=maxm:ΠH(m)=2m
V
C
(
H
)
=
d
VC(H)=d
VC(H)=d表明存在大小为
d
d
d的示例集能被假设空间
H
H
H打散。注意:这并不意味着所有大小为d的示例集都能被假设空间
H
H
H打散。
12.5 Rademacher复杂度
Rademacher复杂度(Rademacher complexity)是另一种刻画假设空间复杂度的途径,与 VC 维不同的是,它在一定程度上考虑了数据分布。
函数空间
F
F
F关于
Z
Z
Z的经验Rademacher复杂度
R
^
Z
(
F
)
=
E
σ
[
s
u
p
f
∈
F
1
m
∑
i
=
1
m
σ
i
f
(
z
i
)
]
\hat R_Z(F)=E_σ[sup_{f∈F}{1\over m}∑^m_{i=1}σ_if(z_i)]
R^Z(F)=Eσ[supf∈Fm1i=1∑mσif(zi)]
经验 Rademacher 复杂度衡量了函数空间
F
F
F下与随机噪声在集合
Z
Z
Z中的相关性。通常我们希望了解函数空间
F
F
F下在
Z
Z
Z上关于分布
D
D
D的相关性,因此,对所有从
D
D
D独立同分布采样而得的大小为
m
m
m的集合
Z
Z
Z求期望可得。
函数空间
F
F
F关于
Z
Z
Z上分布
D
D
D的Radwmacher复杂度为
R
m
(
F
)
=
E
Z
⊆
Z
:
∣
Z
∣
=
m
[
R
^
Z
(
F
)
]
R_m(F)=E_{Z⊆Z:|Z|=m}[\hat R_Z(F)]
Rm(F)=EZ⊆Z:∣Z∣=m[R^Z(F)]
基于此式可以得到关于函数空间F的泛化误差界。
对实值函数空间F:Z→[0,1],根据分布
D
D
D从
Z
Z
Z中独立同分布采样得到示例集
Z
Z
Z,且0<δ<1,对任意
f
∈
F
f∈F
f∈F, 以至少
1
−
δ
1−δ
1−δ的概率有:
E
[
f
(
z
)
]
⩽
1
m
∑
i
=
1
m
f
(
z
i
)
+
2
R
m
(
F
)
+
l
n
(
1
/
δ
)
2
m
E[f(z)]⩽{1\over m}∑^m_{i=1}f(z_i)+2R_m(F)+\sqrt {ln(1/δ)\over 2m}
E[f(z)]⩽m1i=1∑mf(zi)+2Rm(F)+2mln(1/δ)
E
[
f
(
z
)
]
⩽
1
m
∑
i
=
1
m
f
(
z
i
)
+
2
R
^
Z
(
F
)
+
3
l
n
(
2
/
δ
)
2
m
E[f(z)]⩽{1\over m}∑^m_{i=1}f(z_i)+2\hat R_Z(F)+3\sqrt {ln(2/δ)\over 2m}
E[f(z)]⩽m1i=1∑mf(zi)+2R^Z(F)+32mln(2/δ)
其中函数空间F是区间[0,1]上的实值函数,因此上式只适用于回归问题
对于二分类问题,定义为:对假设空间
H
:
χ
→
−
1
,
+
1
H:χ→{−1,+1}
H:χ→−1,+1,根据分布
D
D
D从
χ
\chi
χ中独立同分布采样得到示例集
D
D
D,
0
<
δ
<
1
0<δ<1
0<δ<1,对任意
h
∈
H
h∈H
h∈H,以至少
1
−
δ
1−δ
1−δ的概率有:
E
(
h
)
⩽
E
^
(
h
)
+
R
m
(
H
)
+
l
n
(
1
/
δ
)
2
m
E(h)⩽\hat E(h)+R_m(H)+\sqrt {ln(1/δ)\over 2m}
E(h)⩽E^(h)+Rm(H)+2mln(1/δ)
E
(
h
)
⩽
E
^
(
h
)
+
R
^
D
(
H
)
+
3
l
n
(
2
/
δ
)
2
m
E(h)⩽\hat E(h)+\hat R_D(H)+3\sqrt {ln(2/δ)\over 2m}
E(h)⩽E^(h)+R^D(H)+32mln(2/δ)
上述给出了基于Rademacher 复杂度的泛化误差界。对比可知,基于 VC 维的泛化误差界是分布无关、数据独立的,。换言之基于 Rademmacher 复杂度的泛化误差界依赖于具体学习问题上的数据分布,有点类似于为该学习问题“量身定制”的,因此它通常比基于VC 维的泛化误差界更紧一些。
12.6 稳定性
无论是基于 VC 维还是 Rademacher 复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则需另辟蹊径。稳定性(stability)分析是这方面一个值得关注的方向。
顾名思义,算法的“稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化。学习算法的输入是训练集,因此下面我们先定义训练集
D
D
D的两种变化:
D
∖
i
D^{∖i}
D∖i表示移除D中第i个样例得到的集合
D
∖
i
=
z
1
,
z
2
,
⋯
,
z
i
−
1
,
z
i
+
1
,
⋯
,
z
m
D^{∖i}={z_1,z_2,⋯,z_{i−1},z_{i+1},⋯,z_m}
D∖i=z1,z2,⋯,zi−1,zi+1,⋯,zm
D i D^{i} Di表示移除D中第i个样例得到的集合KaTeX parse error: Expected group after '^' at position 27: …z_2,⋯,z_{i−1},z^̲'_i,z_{i+1},⋯,z…
其中 z i ′ = ( x i ′ , y i ′ ) , x i ′ z_i^′=(x_i^′,y_i^′),x_i^′ zi′=(xi′,yi′),xi′服从分布 D D D并独立于D
损失函数刻画了假设 L D \mathcal{L}_D LD的预测标记 L D ( x ) \mathcal{L}_D(x) LD(x)与真实标记 y y y之间的差别,简记为 l ( L D , z ) l(\mathcal{L}_D,z) l(LD,z)。下面定义关于假设 L D \mathcal{L}_D LD的几种损失。
泛化损失
ℓ
(
L
,
D
)
=
E
x
∈
X
,
z
=
(
x
,
y
)
[
ℓ
(
L
D
,
z
)
]
ℓ(\mathcal{L},D)=E_{x∈X,z=(x,y)}[ℓ(\mathcal{L}_D,z)]
ℓ(L,D)=Ex∈X,z=(x,y)[ℓ(LD,z)]
经验损失
ℓ
^
(
L
,
D
)
=
1
m
∑
i
=
1
m
ℓ
(
L
D
,
z
i
)
\hat ℓ(\mathcal{L},D)={1\over m}∑^m_{i=1}ℓ(\mathcal{L}_D,z_i)
ℓ^(L,D)=m1i=1∑mℓ(LD,zi)
留一损失
ℓ
l
o
o
(
L
,
D
)
=
1
m
∑
i
=
1
m
ℓ
(
L
D
∖
i
,
z
i
)
ℓ_{loo}(\mathcal{L},D)={1\over m}∑^m_{i=1}ℓ(\mathcal{L}_{D^{∖i}},z_i)
ℓloo(L,D)=m1i=1∑mℓ(LD∖i,zi)
对任意的
x
∈
χ
,
z
=
(
x
,
y
)
x∈χ,z=(x,y)
x∈χ,z=(x,y),若学习算法满足:
∣
ℓ
(
L
D
,
z
)
−
ℓ
(
L
D
∖
i
,
z
)
∣
≤
β
|ℓ(\mathcal{L}_D,z)−ℓ(\mathcal{L}_{D^{∖i}},z)|≤β
∣ℓ(LD,z)−ℓ(LD∖i,z)∣≤β
则称
L
\mathcal{L}
L关于损失函数
ℓ
ℓ
ℓ满足
β
β
β-均匀稳定性
若损失函数有界,那么:
给定从分布
D
D
D上独立同分布采样得到的大小为
m
m
m的示例集
D
D
D,若学习算法
L
\mathcal{L}
L满足关于损失函数ℓ的β-均匀稳定性,且损失函数l的上界为
M
M
M,
0
<
δ
<
1
0<δ<1
0<δ<1,则对任意
m
≥
1
m≥1
m≥1,以至少
1
−
δ
1-δ
1−δ的概率有
ℓ
(
L
,
D
)
⩽
ℓ
^
(
L
,
D
)
+
2
β
+
(
4
m
β
+
M
)
l
n
(
1
/
δ
)
2
m
ℓ(\mathcal{L},D)⩽\hat ℓ(\mathcal{L},D)+2β+(4mβ+M)\sqrt {ln(1/δ)\over 2m}
ℓ(L,D)⩽ℓ^(L,D)+2β+(4mβ+M)2mln(1/δ)
ℓ
(
L
,
D
)
⩽
ℓ
l
o
o
(
L
,
D
)
+
β
+
(
4
m
β
+
M
)
l
n
(
1
/
δ
)
2
m
ℓ(\mathcal{L},D)⩽ℓ_{loo}(\mathcal{L},D)+β+(4mβ+M)\sqrt {ln(1/δ)\over 2m}
ℓ(L,D)⩽ℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
对损失函数 ℓ ℓ ℓ,若学习算法所输出的假设满足经验损失最小化,那么就可以说算法 L \mathcal{L} L满足经验风险最小化原则,简称ERM。若学习算法是ERM且稳定的,则假设空间H可学习。