1. 损失函数与风险函数
机器学习中,需要通过损失函数来度量模型一次预测的好坏,通常用 L ( Y , f ( x ) ) L(Y,f(x)) L(Y,f(x))来表示,常见的损失函数有:
- 0-1损失函数(指示函数)
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))= \begin{cases} 1, \quad & Y \neq f(X) \\ 0, & Y=f(X) \end{cases} L(Y,f(X))={1,0,Y=f(X)Y=f(X) - 平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2 - 绝对值损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣ - 对数似然损失函数
L ( Y , P ( Y ∣ X ) ) = − l n P ( Y ∣ X ) L(Y,P(Y|X))=-lnP(Y|X) L(Y,P(Y∣X))=−lnP(Y∣X)
风险函数则是损失函数的平均:
若是在训练样本集上的平均,则称为经验风险或经验损失(Empirical Risk/Loss),记作
R
e
m
p
(
f
)
R_{emp}(f)
Remp(f)。给定训练集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
}
T=\lbrace(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\rbrace
T={(x1,y1),(x2,y2),…,(xN,yN)},则:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}{L(y_i,f(x_i))}
Remp(f)=N1i=1∑NL(yi,f(xi))
若是在样本空间上的期望,则为期望风险或期望损失(Expected Risk/Loss),记作
R
e
x
p
(
f
)
R_{exp}(f)
Rexp(f)。模型的输入、输出
(
X
,
Y
)
(X,Y)
(X,Y)是随机变量,遵循联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),则:
R
e
x
p
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
\begin{aligned} R_{exp}(f) & =E_P[L(Y,f(X))] \\ &=\int_{X\times Y}{L(y,f(x))P(x,y) \mathrm{d} x \mathrm{d} y} \end{aligned}
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
模型训练的终极目的是为了降低期望风险。但由于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)是未知的,所以期望风险只存在理论意义。
根据大数定律,当样本容量
N
N
N趋于无穷时,经验风险趋于期望风险。因此,在实际训练时,我们可以用经验风险去近似期望风险。针对样本容量大小,存在两种训练策略:经验风险最小策略和结构风险最小策略。
当样本容量足够大时,经验风险最小策略就能保证较好的训练效果,即:
min
f
∈
F
R
e
m
p
(
f
)
\min_{f\in F}{R_{emp}(f)}
f∈FminRemp(f)
如果训练样本有限,经验风险最小策略就会产生“过拟合”,可在经验风险的基础上增加表示模型复杂度的正则化项(罚项),即结构风险最小策略(Structural Risk Minimization, SRM):
min
f
∈
F
R
s
r
m
(
f
)
=
min
f
∈
F
[
R
e
m
p
(
f
)
+
λ
J
(
f
)
]
\min_{f\in F}{R_{srm}(f)}=\min_{f\in F}{[R_{emp}(f)+\lambda J(f)]}
f∈FminRsrm(f)=f∈Fmin[Remp(f)+λJ(f)]
其中,
J
(
f
)
J(f)
J(f)表示模型复杂度,是定义在假设空间
F
F
F上的泛函,
f
f
f越复杂,
J
(
f
)
J(f)
J(f)越大,比如在多项式函数空间,多项式系数的平方和可作为度量函数复杂度的指标。
λ
≥
0
\lambda \geq 0
λ≥0是正则化系数,用于权衡经验风险和模型复杂度。
正则化方法符合奥卡姆剃刀原理:在所有可能的模型中,能够很好解释已有数据,且最简单的模型才是最好的模型。这样的模型泛化能力强。
2. 泛化能力与泛化误差上界
泛化能力是指模型对未知数据的预测能力,可以通过泛化误差来度量。泛化误差即期望误差,由于其只存在理论意义,我们只能从理论上寻找泛化误差的概率上界。
首先我们可以有一个定性的认识:样本越多,泛化上界越小;假设空间越大,泛化上界越大;当样本容量趋近于无穷时,泛化上界趋于0。因此,泛化误差上界应该是一个与样本容量、假设空间容量有关的函数。
我们通过一个最简单的二分类问题来研究泛化误差上界的证明方法。
给定训练集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
}
T=\lbrace(x_1,y_1),(x_2,y_2), \dots,(x_N,y_N) \rbrace
T={(x1,y1),(x2,y2),…,(xN,yN)},
N
N
N为样本容量,
X
∈
R
n
X \in \mathrm{R}^n
X∈Rn,
Y
∈
{
−
1
,
+
1
}
Y \in \lbrace -1,+1\rbrace
Y∈{−1,+1}。假设空间为有限函数集合
F
∈
{
f
1
,
f
2
,
…
,
f
d
}
F\in \lbrace f_1,f_2,\dots,f_d \rbrace
F∈{f1,f2,…,fd},
d
d
d是假设空间容量。损失函数为0-1损失。有如下关于泛化误差上界的定理:
对任意 f ∈ F f\in F f∈F,以下不等式至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta <1 1−δ,0<δ<1成立:
R e x p ( f ) ≤ R e m p ( f ) + ϵ ( d , N , δ ) R_{exp}(f)\leq R_{emp}(f)+\epsilon(d,N,\delta) Rexp(f)≤Remp(f)+ϵ(d,N,δ)
其中, ϵ ( d , N , δ ) = 1 2 N ( l n d + l n 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})} ϵ(d,N,δ)=2N1(lnd+lnδ1)
该不等式左侧即为泛化误差;右侧为泛化误差上界,由经验误差
R
e
m
p
R_{emp}
Remp和
ϵ
(
d
,
N
,
δ
)
\epsilon(d,N,\delta)
ϵ(d,N,δ)两部分组成,
ϵ
(
d
,
N
,
δ
)
\epsilon(d,N,\delta)
ϵ(d,N,δ)的单调性与我们的定性认识一致:样本容量
N
N
N越大,
ϵ
\epsilon
ϵ越小,且
ϵ
\epsilon
ϵ与
l
n
d
\sqrt{\mathrm{ln}d}
lnd同阶。
该定理的证明需要用到马尔可夫不等式和霍夫丁(Hoeffding)不等式,霍夫丁不等式的证明又需要用到霍夫丁引理。下面依次进行证明。
3. 相关证明
3.1 马尔可夫不等式
马尔可夫不等式把概率关联到数学期望,给出了随机变量的分布函数的一个上界。
若随机变量 X ≥ 0 X\geq 0 X≥0,且 E ( X ) E(X) E(X)存在,则有:
P ( X ≥ ϵ ) ≤ E ( X ) ϵ , ϵ > 0 P(X\geq \epsilon) \leq \frac{E(X)}{\epsilon}, \quad \epsilon>0 P(X≥ϵ)≤ϵE(X),ϵ>0
证明:
P
(
X
≥
ϵ
)
=
∫
X
≥
ϵ
p
(
x
)
d
x
≤
∫
X
≥
ϵ
x
ϵ
p
(
x
)
d
x
=
1
ϵ
∫
X
≥
ϵ
x
p
(
x
)
d
x
≤
1
ϵ
∫
−
∞
+
∞
x
p
(
x
)
d
x
=
E
(
X
)
ϵ
\begin{aligned} P(X \geq \epsilon) &= \int_{X \geq \epsilon}{p(x) dx} \\ &\leq \int_{X \geq \epsilon}{\frac{x}{\epsilon} p(x) dx} \\ &= \frac{1}{\epsilon} \int_{X \geq \epsilon}{x p(x) dx} \\ &\leq \frac{1}{\epsilon}\int_{- \infty}^{+ \infty}{x p(x) dx} \\ &= \frac{E(X)}{\epsilon} \end{aligned}
P(X≥ϵ)=∫X≥ϵp(x)dx≤∫X≥ϵϵxp(x)dx=ϵ1∫X≥ϵxp(x)dx≤ϵ1∫−∞+∞xp(x)dx=ϵE(X)
马尔可夫不等式可以用来估计尾部事件的概率上界,例如:
X
X
X表示工资,
E
(
X
)
E(X)
E(X)为平均工资,设
ϵ
=
n
E
(
X
)
\epsilon=nE(X)
ϵ=nE(X)表示平均工资的
n
n
n倍。根据马尔可夫不等式,工资超过平均工资
n
n
n倍的概率不超过
1
n
\frac{1}{n}
n1。
切比雪夫不等式是马尔可夫不等式的特殊情况,其不限定随机变量的范围,应用更广泛。
若随机变量 X X X的期望和方差都存在,分别为 E ( X ) E(X) E(X)和 D ( X ) D(X) D(X),则有:
P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ D ( X ) ϵ 2 , ϵ > 0 P\lbrace|X-E(X)|\geq \epsilon \rbrace\leq \frac{D(X)}{\epsilon ^2}, \quad \epsilon >0 P{∣X−E(X)∣≥ϵ}≤ϵ2D(X),ϵ>0
证明:
P
{
∣
X
−
E
(
X
)
∣
≥
ϵ
}
=
P
{
∣
X
−
E
(
X
)
∣
2
≥
ϵ
2
}
≤
E
{
∣
X
−
E
(
X
)
∣
2
}
ϵ
2
=
D
(
X
)
ϵ
2
\begin{aligned} P \lbrace \left| X-E(X) \right| \geq \epsilon \rbrace &= P \lbrace \left| X-E(X) \right| ^2 \geq \epsilon ^2 \rbrace \\ & \leq \frac{E \lbrace \left| X-E(X) \right| ^2 \rbrace}{\epsilon ^2} \\ &= \frac{D(X)}{\epsilon ^2} \end{aligned}
P{∣X−E(X)∣≥ϵ}=P{∣X−E(X)∣2≥ϵ2}≤ϵ2E{∣X−E(X)∣2}=ϵ2D(X)
切比雪夫不等式描述了这样一个事实:偏离均值越大,概率越小,事件大多会集中在均值附近。
3.2 霍夫丁引理
对于随机变量 X X X, a ≤ X ≤ b a\leq X \leq b a≤X≤b,且 E ( X ) = 0 E(X)=0 E(X)=0,则对于 ∀ λ ∈ R \forall \lambda \in R ∀λ∈R:
E [ e λ X ] ≤ e λ 2 ( b − a ) 2 8 E[e^{\lambda X}]\leq e^{\frac{\lambda ^2 (b-a)^2}{8}} E[eλX]≤e8λ2(b−a)2
证明:
霍夫丁引理的证明主要是使用了下凸函数的性质。对于凸函数
f
(
x
)
f(x)
f(x),有:
f
(
x
)
≤
f
(
a
)
+
f
(
b
)
−
f
(
a
)
b
−
a
(
x
−
a
)
,
a
≤
x
≤
b
f(x)\leq f(a)+\frac{f(b)-f(a)}{b-a}(x-a), \quad a\leq x\leq b
f(x)≤f(a)+b−af(b)−f(a)(x−a),a≤x≤b
f
(
X
)
=
e
λ
X
f(X)=e^{\lambda X}
f(X)=eλX为下凸函数,代入上式:
e
λ
X
≤
e
λ
a
+
e
λ
b
−
e
λ
a
b
−
a
(
X
−
a
)
=
b
−
X
b
−
a
e
λ
a
+
X
−
a
b
−
a
e
λ
b
,
∀
X
∈
[
a
,
b
]
\begin{aligned} e^{\lambda X} &\leq e^{\lambda a}+\frac{e^{\lambda b}-e^{\lambda a}}{b-a}(X-a) \\ &= \frac{b-X}{b-a}e^{\lambda a}+\frac{X-a}{b-a}e^{\lambda b}, \quad \forall X \in [a,b] \end{aligned}
eλX≤eλa+b−aeλb−eλa(X−a)=b−ab−Xeλa+b−aX−aeλb,∀X∈[a,b]
其中,
X
X
X为取值于
[
a
,
b
]
[a,b]
[a,b]的随机变量,且
E
(
X
)
=
0
E(X)=0
E(X)=0,对上式两边同时求期望:
E
(
e
λ
X
)
≤
b
−
E
(
X
)
b
−
a
e
λ
a
+
E
(
X
)
−
a
b
−
a
e
λ
b
=
b
b
−
a
e
λ
a
+
−
a
b
−
a
e
λ
b
=
−
a
b
−
a
e
λ
a
(
−
b
a
+
e
λ
(
b
−
a
)
)
\begin{aligned} E(e^{\lambda X})&\leq\frac{b-E(X)}{b-a}e^{\lambda a}+\frac{E(X)-a}{b-a}e^{\lambda b}\\ &=\frac{b}{b-a}e^{\lambda a}+\frac{-a}{b-a}e^{\lambda b}\\ &=\frac{-a}{b-a}e^{\lambda a}(-\frac{b}{a}+e^{\lambda(b-a)}) \end{aligned}
E(eλX)≤b−ab−E(X)eλa+b−aE(X)−aeλb=b−abeλa+b−a−aeλb=b−a−aeλa(−ab+eλ(b−a))
令
q
=
−
a
b
−
a
q=\frac{-a}{b-a}
q=b−a−a,
h
=
λ
(
b
−
a
)
h=\lambda (b-a)
h=λ(b−a),上式可变形为:
E
(
e
λ
X
)
≤
q
e
−
q
h
(
1
q
−
1
+
e
h
)
=
e
−
q
h
(
1
−
q
+
q
e
h
)
=
e
−
q
h
+
ln
(
1
−
q
+
q
e
h
)
\begin{aligned} E(e^{\lambda X})&\leq qe^{-qh}(\frac{1}{q}-1+e^h)\\ &=e^{-qh}(1-q+qe^h)\\ &=e^{-qh+\ln(1-q+qe^h)} \end{aligned}
E(eλX)≤qe−qh(q1−1+eh)=e−qh(1−q+qeh)=e−qh+ln(1−q+qeh)
令
L
(
h
)
=
−
q
h
+
l
n
(
1
−
q
+
q
e
h
)
L(h)=-qh+ln(1-q+qe^h)
L(h)=−qh+ln(1−q+qeh),上式可变形为:
E
(
e
λ
X
)
≤
e
L
(
h
)
E(e^{\lambda X}) \leq e^{L(h)}
E(eλX)≤eL(h)
对于
L
(
h
)
L(h)
L(h)在0处进行泰勒展开:
L
(
h
)
=
L
(
0
)
+
L
′
(
0
)
h
+
L
′
′
(
h
)
2
h
2
L(h)=L(0)+L'(0)h+\frac{L''(h)}{2}h^2
L(h)=L(0)+L′(0)h+2L′′(h)h2
其中,
L
(
h
)
∣
h
=
0
=
0
L
′
(
h
)
∣
h
=
0
=
−
q
+
q
e
h
1
−
q
+
q
e
h
=
0
L
′
′
(
h
)
=
q
e
h
(
1
−
q
+
q
e
h
)
−
(
q
e
h
)
2
(
1
−
q
+
q
e
h
)
2
=
q
e
h
1
−
q
+
q
e
h
−
(
q
e
h
1
−
q
+
q
e
h
)
2
≤
1
4
\begin{aligned} L(h)|_{h=0}&=0\\ L'(h)|_{h=0}&=-q+\frac{qe^h}{1-q+qe^h}\\ &=0\\ L''(h)&=\frac{qe^h(1-q+qe^h)-(qe^h)^2}{(1-q+qe^h)^2}\\ &=\frac{qe^h}{1-q+qe^h}-(\frac{qe^h}{1-q+qe^h})^2\\ &\leq\frac{1}{4} \end{aligned}
L(h)∣h=0L′(h)∣h=0L′′(h)=0=−q+1−q+qehqeh=0=(1−q+qeh)2qeh(1−q+qeh)−(qeh)2=1−q+qehqeh−(1−q+qehqeh)2≤41
代入上式,可得:
L
(
h
)
≤
h
2
8
=
λ
2
(
b
−
a
)
2
8
L(h) \leq \frac{h^2}{8}=\frac{\lambda ^2 (b-a)^2}{8}
L(h)≤8h2=8λ2(b−a)2
进而有:
E
(
e
λ
X
)
≤
e
λ
2
(
b
−
a
)
2
8
E(e^{\lambda X})\leq e^{\frac{\lambda ^2 (b-a)^2}{8}}
E(eλX)≤e8λ2(b−a)2
3.3 霍夫丁不等式
设 X 1 , X 2 , ⋯ , X N X_1, X_2, \cdots, X_N X1,X2,⋯,XN是独立随机变量,且 X i ∈ [ a i , b i ] , i = 1 , 2 , ⋯ , N X_i \in [a_i, b_i],\quad i=1,2,\cdots,N Xi∈[ai,bi],i=1,2,⋯,N; X ‾ = 1 N ∑ i = 1 N X i \overline{X}=\frac{1}{N}\sum_{i=1}^{N}{X_i} X=N1∑i=1NXi,对任意 t > 0 t>0 t>0,以下不等式成立:
P [ X ‾ − E ( X ‾ ) ≥ t ] = P [ E ( X ‾ ) − X ‾ ≥ t ] = e − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 \begin{aligned} P[\overline{X}-E(\overline{X})\geq t]&=P[E(\overline{X})-\overline{X}\geq t] \\ &=e^{-\frac{2N^2t^2}{\sum_{i=1}^{N}{(b_i-a_i)^2}}} \end{aligned} P[X−E(X)≥t]=P[E(X)−X≥t]=e−∑i=1N(bi−ai)22N2t2
证明:
P
[
X
‾
−
E
[
X
‾
]
≥
t
]
=
P
[
e
λ
(
X
‾
−
E
[
X
‾
]
)
≥
e
λ
t
]
≤
E
[
e
λ
(
X
‾
−
E
[
X
‾
]
)
]
e
λ
t
马尔科夫不等式
=
e
−
λ
t
E
[
e
λ
(
1
N
∑
i
=
1
N
(
X
i
)
−
E
[
1
N
∑
i
=
1
N
(
X
i
)
]
)
]
=
e
−
λ
t
E
[
e
λ
N
∑
i
=
1
N
(
X
i
−
E
[
X
i
]
)
]
=
e
−
λ
t
E
[
∏
i
=
1
N
e
λ
N
(
X
i
−
E
[
X
i
]
)
]
=
e
−
λ
t
∏
i
=
1
N
E
[
e
λ
N
(
X
i
−
E
[
X
i
]
)
]
\begin{aligned} P[\overline{X}-E[\overline{X}]\geq t]&=P[e^{\lambda(\overline{X}-E[\overline{X}])}\geq e^{\lambda t}]\\ &\leq\frac{E[e^{\lambda(\overline{X}-E[\overline{X}])}]}{e^{\lambda t}}\quad\quad\text{马尔科夫不等式}\\ &=e^{-\lambda t}E[ e^{\lambda (\frac{1}{N}\sum_{i=1}^{N}(X_i)-E[\frac{1}{N}\sum_{i=1}^{N}(X_i)])}]\\ &=e^{-\lambda t}E[e^{\frac{\lambda}{N}\sum_{i=1}^{N}{(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}E[\prod_{i=1}^{N}{e^{\frac{\lambda}{N}(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}\prod_{i=1}^{N}{E[e^{\frac{\lambda}{N}(X_i-E[X_i ])}]} \end{aligned}
P[X−E[X]≥t]=P[eλ(X−E[X])≥eλt]≤eλtE[eλ(X−E[X])]马尔科夫不等式=e−λtE[eλ(N1∑i=1N(Xi)−E[N1∑i=1N(Xi)])]=e−λtE[eNλ∑i=1N(Xi−E[Xi])]=e−λtE[i=1∏NeNλ(Xi−E[Xi])]=e−λti=1∏NE[eNλ(Xi−E[Xi])]
由于
a
i
≤
X
i
−
E
[
X
i
]
≤
b
i
a_i \leq X_i -E[X_i ] \leq b_i
ai≤Xi−E[Xi]≤bi,且
E
[
X
i
−
E
[
X
i
]
]
=
0
E[X_i -E[X_i ] ]=0
E[Xi−E[Xi]]=0,由霍夫丁引理可知:
E
[
e
λ
N
(
X
i
−
E
[
X
i
]
)
]
≤
e
λ
2
(
b
i
−
a
i
)
2
8
N
2
E[e^{\frac{\lambda}{N}(X_i -E[X_i ])} ] \leq e^{\frac{\lambda ^2 (b_i - a_i )^2}{8N^2 }}
E[eNλ(Xi−E[Xi])]≤e8N2λ2(bi−ai)2
代入上式有:
P
[
X
‾
−
E
[
X
‾
]
≥
t
]
≤
e
−
λ
t
∏
i
=
1
N
e
λ
2
(
b
i
−
a
i
)
2
8
N
2
=
e
−
λ
t
+
λ
2
8
N
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
\begin{aligned} P \left[\overline{X}-E\left[\overline{X}\right] \geq t\right] &\leq e^{-\lambda t} \prod_{i=1}^{N}{e^{\frac{\lambda^2(b_i-a_i)^2}{8N^2}}} \\ &= e^{-\lambda t +\frac{\lambda^2}{8N^2}\sum_{i=1}^{N}{(b_i-a_i)^2}} \end{aligned}
P[X−E[X]≥t]≤e−λti=1∏Ne8N2λ2(bi−ai)2=e−λt+8N2λ2∑i=1N(bi−ai)2
令
g
(
λ
)
=
−
λ
t
+
λ
2
8
N
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
g(\lambda)=-\lambda t+\frac{\lambda ^2}{8N^2}\sum_{i=1}^{N}{(b_i -a_i)^2}
g(λ)=−λt+8N2λ2∑i=1N(bi−ai)2,为了得到一个最好的概率上界,可求
g
(
λ
)
g(\lambda)
g(λ)最小值:
g
(
λ
)
∣
λ
=
4
N
2
t
∑
i
=
1
N
(
b
i
−
a
i
)
2
=
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
g(\lambda)|_{\lambda=\frac{4N^2 t}{\sum_{i=1}^{N}{(b_i -a_i)^2}}}=-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}}
g(λ)∣λ=∑i=1N(bi−ai)24N2t=−∑i=1N(bi−ai)22N2t2
从而有:
P
[
X
‾
−
E
[
X
‾
]
≥
t
]
≤
e
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
P[\overline{X}-E[\overline{X}]\geq t] \leq e^{-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}}}
P[X−E[X]≥t]≤e−∑i=1N(bi−ai)22N2t2
同理可得:
P
[
E
[
X
‾
]
−
X
‾
≥
t
]
≤
e
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
P[E[\overline{X}]-\overline{X}\geq t] \leq e^{-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}}}
P[E[X]−X≥t]≤e−∑i=1N(bi−ai)22N2t2
命题得证。
3.4 假设空间有限的二分类问题的泛化误差上界
给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\lbrace (x_1,y_1),(x_2,y_2), \dots,(x_N,y_N) \rbrace T={(x1,y1),(x2,y2),…,(xN,yN)}, N N N为样本容量, X ∈ R n X \in \mathrm{R}^n X∈Rn, Y ∈ { − 1 , + 1 } Y \in \lbrace -1,+1\rbrace Y∈{−1,+1}。假设空间为有限函数集合 F ∈ { f 1 , f 2 , … , f d } F\in \lbrace f_1,f_2,\dots,f_d \rbrace F∈{f1,f2,…,fd}, d d d是假设空间容量。损失函数为0-1损失。其泛化误差上界满足如下定理:
对任意 f ∈ F f\in F f∈F,以下不等式至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta <1 1−δ,0<δ<1成立:
R e x p ( f ) ≤ R e m p ( f ) + ϵ ( d , N , δ ) R_{exp}(f)\leq R_{emp}(f)+\epsilon(d,N,\delta) Rexp(f)≤Remp(f)+ϵ(d,N,δ)
其中, ϵ ( d , N , δ ) = 1 2 N ( l n d + l n 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})} ϵ(d,N,δ)=2N1(lnd+lnδ1)
证明:
损失函数为0-1损失,因此损失函数的取值区间为
[
0
,
1
]
[0,1]
[0,1],从而对任意
f
i
∈
F
,
R
e
m
p
(
f
i
)
∈
[
0
,
1
]
f_i \in F,R_{emp}(f_i) \in [0,1]
fi∈F,Remp(fi)∈[0,1],由霍夫丁不等式可知:
P
(
R
e
x
p
(
f
)
−
R
e
m
p
(
f
)
≥
ϵ
)
≤
e
−
2
N
2
ϵ
2
P(R_{exp}(f)-R_{emp}(f)\geq \epsilon )\leq e^{-2N^2 \epsilon ^2}
P(Rexp(f)−Remp(f)≥ϵ)≤e−2N2ϵ2
由于假设空间
F
F
F是一个有限集合,因此:
P
(
∃
f
∈
F
:
R
e
x
p
(
f
)
−
R
e
m
p
(
f
)
≥
ϵ
)
=
P
(
⋃
f
∈
F
{
R
e
x
p
(
f
)
−
R
e
m
p
(
f
)
≥
ϵ
}
)
≤
∑
f
∈
F
P
(
R
e
x
p
(
f
)
−
R
e
m
p
(
f
)
≥
ϵ
)
≤
d
e
−
2
N
ϵ
2
\begin{aligned} P\left(\exists f\in F:R_{exp}(f)-R_{emp}(f)\geq\epsilon\right)&=P\left(\bigcup_{f\in F}\lbrace R_{exp}(f)-R_{emp}(f)\geq\epsilon\rbrace\right)\\ &\leq\sum_{f\in F}{P(R_{exp}(f)-R_{emp}(f)\geq\epsilon)}\\ &\leq de^{-2N\epsilon^2} \end{aligned}
P(∃f∈F:Rexp(f)−Remp(f)≥ϵ)=P⎝⎛f∈F⋃{Rexp(f)−Remp(f)≥ϵ}⎠⎞≤f∈F∑P(Rexp(f)−Remp(f)≥ϵ)≤de−2Nϵ2
等价于:
P
(
∀
f
∈
F
:
R
e
x
p
(
f
)
−
R
e
m
p
(
f
)
<
ϵ
)
≥
1
−
d
e
−
2
N
ϵ
2
P\left(\forall f \in F: R_{exp}(f)-R_{emp}(f)< \epsilon \right)\geq 1-de^{-2N\epsilon ^2}
P(∀f∈F:Rexp(f)−Remp(f)<ϵ)≥1−de−2Nϵ2
令
δ
=
d
e
−
2
N
ϵ
2
\delta=de^{-2N\epsilon ^2}
δ=de−2Nϵ2,则:
P
(
∀
f
∈
F
:
R
e
x
p
(
f
)
<
R
e
m
p
(
f
)
+
ϵ
)
≥
1
−
δ
P\left(\forall f \in F: R_{exp}(f)<R_{emp}(f)+ \epsilon \right)\geq 1-\delta
P(∀f∈F:Rexp(f)<Remp(f)+ϵ)≥1−δ
即至少以概率
1
−
δ
1-\delta
1−δ有
R
e
x
p
(
f
)
<
R
e
m
p
(
f
)
+
ϵ
R_{exp}(f)<R_{emp}(f)+ \epsilon
Rexp(f)<Remp(f)+ϵ,其中
ϵ
=
1
2
N
(
l
n
d
+
l
n
1
δ
)
\epsilon=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})}
ϵ=2N1(lnd+lnδ1)。
命题得证。