本篇博客旨在补充李航老师在《统计学习方法》第一章中关于Hoeffding’s Inequality的证明,明白了它 的由来才能对泛化误差上界有更深刻的认识。
温馨提示:最好在电脑端阅读,因为手机屏幕太小,所书写的公式无法施展才华。但是如果可以容忍一丢丢瑕疵的话,也可以在手机上阅读。
先导内容
一、 泛化能力(generalization ability)
泛化能力表示学习方法学习到的模型对未知数据的预测能力。
二、 泛化误差(generalization error)
泛化误差表示用学习到的模型对未知数据进行预测的误差,定义如下:(假设学到的模型为
f
^
\widehat{f}
f
,L为损失函数)
R
e
x
p
(
f
^
)
=
E
p
[
L
(
Y
,
f
^
(
X
)
]
=
∫
X
×
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
\begin{aligned} R_{exp}(\widehat{f}) & = E_p[L(Y,\widehat{f}(X)] \\ & = \int_{X\times Y} L(y,\widehat{f}(x))P(x,y)dxdy \end{aligned}
Rexp(f
)=Ep[L(Y,f
(X)]=∫X×YL(y,f
(x))P(x,y)dxdy 泛化误差也就是所学模型的误差期望值(即期望风险),反映了学习方法的泛化能力。
三、泛化误差上界(generalization error bound)
对于泛化能力的分析通常是根据泛化误差上界来确定的,因为它代表的是泛化能力的下界,也就是所谓的保底值,如果保底值能够提升,那么模型的整体泛化能力就能够得到提升。
(注意:因为泛化误差定义式中的损失函数所求得的值为负数,所以它必定存在一个上界)
泛化误差上界的定义如下:对于二类分类问题,当假设空间是有限个函数的集合
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
\mathcal{F}=\{f_1,f_2,...,f_d\}
F={f1,f2,...,fd} 时,对任意一个函数
f
∈
F
f\in\mathcal{F}
f∈F,至少以概率
1
−
δ
(
0
<
δ
<
1
)
1-\delta\ (0<\delta<1)
1−δ (0<δ<1),使得以下不等式成立:
R
(
f
)
≤
R
^
(
f
)
+
ε
(
d
,
N
,
δ
)
R(f) \leq\ \widehat{R}(f) \ +\ \varepsilon(d,N,\delta)
R(f)≤ R
(f) + ε(d,N,δ)
其中,
ε
(
d
,
N
,
δ
)
=
1
2
N
(
l
o
g
d
+
l
o
g
1
δ
)
\varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}
ε(d,N,δ)=2N1(logd+logδ1)
不等式中左侧的
R
(
f
)
R(f)
R(f) 是泛化误差,右侧的即是泛化误差上界,其中的
R
^
(
f
)
\widehat{R}(f)
R
(f) 是训练过程中的误差,而
ε
(
d
,
N
,
δ
)
\varepsilon(d,N,\delta)
ε(d,N,δ) 相当于一个纠正量,是
N
N
N 的单调递减函数,当
N
N
N 趋近无穷时趋向 0,同时它也是
l
o
g
d
logd
logd 阶的函数,假设空间包含的函数越多时,
d
d
d 的值越大,即它的值也越大。
值得注意的是,该不等式是根据霍夫丁不等式推导而来,但是霍夫丁不等式同样需要证明是正确的才能进行使用。
重点来了!霍夫丁不等式的证明
霍夫丁不等式的证明遵循下图中的证明过程,需要先证明马尔可夫不等式、切比雪夫不等式、切诺夫界和霍夫丁引理,才能够对霍夫丁不等式进行证明。
一、Markov’s Inequality(马尔可夫不等式)
- 定理:设
Z
≥
0
Z \ge 0
Z≥0 为一个非负的随机变量,对任意的
t
>
0
t>0
t>0 ,有:
P ( Z ≥ t ) ≤ E ( Z ) t P(Z \ge t)\ \le \ \frac{E(Z)}{t} P(Z≥t) ≤ tE(Z) - 证明如下:
P ( Z ≥ t ) = E [ 1 { Z ≥ t } ] ≤ E [ Z t 1 { Z ≥ t } ] ≤ E ( Z ) t P(Z \ge t) = E[1_{\{Z \ge t\}} ]\le E[\frac{Z}{t}1_{\{Z \ge t\}} ] \le \frac{E(Z)}{t} P(Z≥t)=E[1{Z≥t}]≤E[tZ1{Z≥t}]≤tE(Z)
注意: 1 { Z ≥ t } 1_{\{Z \ge t\}} 1{Z≥t} 表示的是事件 Z ≥ t Z\ge t Z≥t 发生的时候为 1 1 1,否则为 0 0 0。所以当随机情况下, 1 { Z ≥ t } ≤ 1 1_{\{Z \ge t\}} \le 1 1{Z≥t}≤1。
二、Chebyshev’s Inequality(切比雪夫不等式)
-
定理:设 Z Z Z 是一个属于 R R R 集合的随机变量,且均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,有:
P ( ∣ Z − μ ∣ ≥ σ t ) ≤ 1 t 2 P(|Z - \mu|\ \ge\ \sigma t)\ \le \ \frac{1}{t^2} P(∣Z−μ∣ ≥ σt) ≤ t21 -
证明如下:
P
(
∣
Z
−
μ
∣
≥
σ
t
)
=
P
[
(
Z
−
μ
)
2
≥
σ
2
t
2
]
≤
E
[
(
Z
−
μ
)
2
]
σ
2
t
2
=
σ
2
σ
2
t
2
=
1
t
2
\begin{aligned} P(|Z - \mu|\ \ge\ \sigma t) & = \color{red}P[\ (Z-\mu)^2 \ge \ \sigma^2 t^2\ ] \\ & \color{red} \le \frac{E[\ (Z-\mu)^2\ ]}{ \sigma^2 t^2} \color{black} = \frac{ \sigma^2}{\sigma^2 t^2} =\frac{1}{t^2} \end{aligned}
P(∣Z−μ∣ ≥ σt)=P[ (Z−μ)2≥ σ2t2 ]≤σ2t2E[ (Z−μ)2 ]=σ2t2σ2=t21
注意:红色部分使用的是马尔可夫不等式
!
!
!
三、Chernoff’s bound(切诺夫界)
- 设
Z
Z
Z 是一个属于
R
R
R 集合的随机变量,任意的
t
>
0
t>0
t>0 ,有:
P ( Z ≥ t ) ≤ e − s t M Z ( s ) ( s > 0 ) P(Z \ge t)\ \le \ e^{-st} M_Z(s) \ \ \ \ \ \ (s>0) P(Z≥t) ≤ e−stMZ(s) (s>0) - 证明如下:对任意的
s
>
0
s>0
s>0,
P ( Z ≥ t ) = P ( s Z ≥ s t ) = P ( e s Z ≥ e s t ) ≤ E ( e s Z ) e s t = M Z ( s ) e s t \begin{aligned} P(Z \ge t) & = P(sZ\ge st) \\ & = \color{red}P(e^{sZ}\ge e^{st}) \\ &\color{red} \le \frac{E(e^{sZ})}{e^{st}} \color{black} = \frac{M_Z(s)}{e^{st}} \end{aligned} P(Z≥t)=P(sZ≥st)=P(esZ≥est)≤estE(esZ)=estMZ(s)
注意:红色部分使用的是马尔可夫不等式 ! ! !
补充内容: M Z ( s ) M_Z(s) MZ(s) 表示的是矩量母函数(moment-generating function),当满足特定条件时, E ( e s Z ) = M Z ( s ) E(e^{sZ})=M_Z(s) E(esZ)=MZ(s) 。
四、Hoeffding’s lemma(霍夫丁引理)
-
定理:设随机变量 Z ∈ [ a , b ] Z\in [\ a, b\ ] Z∈[ a,b ],对任意的 λ ∈ R \lambda \in R λ∈R,有:(这里使用 e x p ( x ) exp(x) exp(x) 代替 e x e^x ex)
E [ e x p ( λ ( Z − E ( Z ) ) ) ] ≤ e x p ( λ 2 ( b − a ) 2 8 ) E[\ exp(\ \lambda(Z-E(Z))\ )\ ]\le exp(\frac{\lambda ^2(b-a)^2}{8}) E[ exp( λ(Z−E(Z)) ) ]≤exp(8λ2(b−a)2) -
证明:为了使推导过程更加简洁,令 E ( Z ) = 0 E(Z) = 0 E(Z)=0,如果取其他值也并不影响结果,即有:
E [ e x p ( λ ( Z − E ( Z ) ) ) ] = E [ e x p ( λ Z ) ] (1) E[\ exp(\ \lambda(Z-E(Z))\ )\ ] = E[\ exp(\lambda Z)\ ]\tag{1} E[ exp( λ(Z−E(Z)) ) ]=E[ exp(λZ) ](1)
1. 设 Z = α b + ( 1 − α ) a Z = \alpha b +(1-\alpha)a Z=αb+(1−α)a,其中 α = Z − a b − a , 1 − α = b − Z b − a \alpha = \frac{Z-a}{b-a}\ ,\ 1-\alpha=\frac{b-Z}{b-a} α=b−aZ−a , 1−α=b−ab−Z,令 g ( Z ) = e x p ( λ Z ) g(Z) = exp(\lambda Z) g(Z)=exp(λZ),因为 g ( Z ) g(Z) g(Z) 是一个凹函数,所以可以得到:
g ( Z ) = g [ α b + ( 1 − α ) a ] ≤ α g ( b ) + ( 1 − α ) g ( a ) = Z − a b − a g ( b ) + b − Z b − a g ( a ) = Z − a b − a e x p ( λ b ) + b − Z b − a e x p ( λ a ) \begin{aligned} g(Z) & =g[\ \alpha b +(1-\alpha)a \ ] \\ & \le \alpha g(b)+(1-\alpha)g(a) \\ & = \frac{Z-a}{b-a}\ g(b) + \frac{b-Z}{b-a}\ g(a) \\ & = \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a) \end{aligned} g(Z)=g[ αb+(1−α)a ]≤αg(b)+(1−α)g(a)=b−aZ−a g(b)+b−ab−Z g(a)=b−aZ−a exp(λb)+b−ab−Z exp(λa)
即得: g ( Z ) ≤ Z − a b − a e x p ( λ b ) + b − Z b − a e x p ( λ a ) (2) g(Z) \le \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a) \tag{2} g(Z)≤b−aZ−a exp(λb)+b−ab−Z exp(λa)(2)
(事实上,在国外的论述中,我们所谓的凹函数是他们的凸函数,它们是根据凹凸性的性质来进行判断,而我们是根据直观的感觉,这一点可以参考百度函数的凹凸性)
2、对不等式(2)两边取期望得:
E [ e x p ( λ Z ) ] ≤ E [ Z − a b − a e x p ( λ b ) + b − Z b − a e x p ( λ a ) ] = E [ Z b − a ( e x p ( λ b ) − e x p ( λ a ) ) ] + E [ b b − a e x p ( λ a ) − a b − a e x p ( λ b ) ] \begin{aligned} E[\ exp(\lambda Z)\ ] & \le E[\ \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a)\ ] \\ & =E[\ \frac{Z}{b-a}\ (exp(\lambda b)-exp(\lambda a))\ ]\ +\\&\ \ \ \ E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ] \end{aligned} E[ exp(λZ) ]≤E[ b−aZ−a exp(λb)+b−ab−Z exp(λa) ]=E[ b−aZ (exp(λb)−exp(λa)) ] + E[ b−ab exp(λa)−b−aa exp(λb) ]
即得:
E [ e x p ( λ Z ) ] ≤ E [ Z b − a ( e x p ( λ b ) − e x p ( λ a ) ) ] + E [ b b − a e x p ( λ a ) − a b − a e x p ( λ b ) ] (3) \begin{aligned} E[\ exp(\lambda Z)\ ] & \le E[\ \frac{Z}{b-a}\ (exp(\lambda b)-exp(\lambda a))\ ]\ +\\&\ \ \ \ E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ]\tag{3} \end{aligned} E[ exp(λZ) ]≤E[ b−aZ (exp(λb)−exp(λa)) ] + E[ b−ab exp(λa)−b−aa exp(λb) ](3)
3、又因为 E ( Z ) = 0 E(Z)=0 E(Z)=0,所以得:
E [ e x p ( λ Z ) ] ≤ E [ b b − a e x p ( λ a ) − a b − a e x p ( λ b ) ] (4) E[\ exp(\lambda Z)\ ]\le E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ]\tag{4} E[ exp(λZ) ]≤E[ b−ab exp(λa)−b−aa exp(λb) ](4)
4、令 γ = − a b − a \gamma=-\frac{a}{b-a} γ=−b−aa,则有 1 − γ = b b − a 1-\gamma=\frac{b}{b-a} 1−γ=b−ab,即不等式(3)中可以化简为:
E [ e x p ( λ Z ) ] ≤ E [ ( 1 − γ ) e x p ( λ a ) + γ exp ( λ b ) ] = ( 1 − γ ) e x p ( λ a ) + γ exp ( λ b ) \begin{aligned}E[\ exp(\lambda Z)\ ] & \le E[\ (1-\gamma)\ exp(\lambda a) + \gamma\exp(\lambda b)\ ]\\ &=(1-\gamma)\ exp(\lambda a) + \gamma\exp(\lambda b) \end{aligned} E[ exp(λZ) ]≤E[ (1−γ) exp(λa)+γexp(λb) ]=(1−γ) exp(λa)+γexp(λb)
即得:
E [ e x p ( λ Z ) ] ≤ ( 1 − γ ) e x p ( λ a ) + γ e x p ( λ b ) (5) E[\ exp(\lambda Z)\ ]\le (1-\gamma)\ exp(\lambda a) + \gamma\ exp(\lambda b) \tag{5} E[ exp(λZ) ]≤(1−γ) exp(λa)+γ exp(λb)(5)
5、令 μ = λ ( b − a ) \mu = \lambda\ (b-a) μ=λ (b−a),则有 λ a = − μ γ \lambda\ a=-\mu \ \gamma λ a=−μ γ, 即不等式(4)可以化简为:
E [ e x p ( λ Z ) ] ≤ ( 1 − γ ) e x p ( λ a ) + γ e x p ( λ a ) e x p ( λ b ) e x p ( λ a ) = e x p ( λ a ) [ ( 1 − γ ) + γ e x p ( λ b ) e x p ( λ a ) ] = e x p ( − μ γ ) ( 1 − γ + γ e x p ( μ ) ) \begin{aligned}E[\ exp(\lambda Z)\ ] & \le (1-\gamma)\ exp(\lambda a) + \gamma \ exp(\lambda a) \ \frac{exp(\lambda b)}{exp(\lambda a) } \\ & = exp(\lambda a) [\ (1-\gamma)\ +\ \gamma\ \frac{exp(\lambda b)}{exp(\lambda a) }\ ] \\ & = exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ ) \end{aligned} E[ exp(λZ) ]≤(1−γ) exp(λa)+γ exp(λa) exp(λa)exp(λb)=exp(λa)[ (1−γ) + γ exp(λa)exp(λb) ]=exp(−μ γ) (1−γ + γ exp(μ) )
即得:
E [ e x p ( λ Z ) ] ≤ e x p ( − μ γ ) ( 1 − γ + γ e x p ( μ ) ) (6) E[\ exp(\lambda Z)\ ]\le exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ ) \tag{6} E[ exp(λZ) ]≤exp(−μ γ) (1−γ + γ exp(μ) )(6)
6、令 f ( μ ) = l o g [ e x p ( − μ γ ) ( 1 − γ + γ e x p ( μ ) ) ] f(\mu) = log[\ exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ )\ ] f(μ)=log[ exp(−μ γ) (1−γ + γ exp(μ) ) ],即对应有: E [ e x p ( λ Z ) ] ≤ e x p [ f ( μ ) ] E[\ exp(\lambda Z)\ ]\le exp[\ f(\mu)\ ] E[ exp(λZ) ]≤exp[ f(μ) ],由 f ( μ ) f(\mu) f(μ) 求导得:
{ f ′ ( μ ) = − γ + γ e x p ( μ ) 1 − γ + γ e x p ( μ ) f ′ ′ ( μ ) = γ ( 1 − γ ) e x p ( μ ) ( 1 − γ + γ e x p ( μ ) ) 2 \begin{cases} f^\prime(\mu)=-\gamma +\frac{\gamma\ exp(\mu)}{1-\gamma\ +\ \gamma\ exp(\mu)} \\ \\ f^{\prime \prime}(\mu) = \frac{\gamma\ (1-\gamma)exp(\mu)}{(1-\gamma\ +\ \gamma\ exp(\mu)\ )^2}\\ \end{cases} ⎩⎪⎨⎪⎧f′(μ)=−γ+1−γ + γ exp(μ)γ exp(μ)f′′(μ)=(1−γ + γ exp(μ) )2γ (1−γ)exp(μ)
7、根据泰勒定理(Taylor’s Theorem),存在一个 ξ ∈ ( 0 , μ ) \xi \in(0, \mu) ξ∈(0,μ),使得: f ( μ ) = f ( 0 ) + μ f ′ ( 0 ) + μ 2 2 f ′ ′ ( ξ ) f(\mu)=f(0)+ \mu\ f^\prime(0)+\frac{\mu^2}{2}\ f^{\prime \prime}(\xi) f(μ)=f(0)+μ f′(0)+2μ2 f′′(ξ) 成立,由上可知, f ( 0 ) = 0 , f ′ ( 0 ) = 0 f(0)=0,f^\prime(0)=0 f(0)=0,f′(0)=0,即 f ( μ ) = μ 2 2 f ′ ′ ( ξ ) f(\mu)=\frac{\mu^2}{2}\ f^{\prime \prime}(\xi) f(μ)=2μ2 f′′(ξ)令 t = γ e x p ( μ ) 1 − γ + γ e x p ( μ ) t=\frac{\gamma\ exp(\mu)}{1-\gamma\ +\ \gamma\ exp(\mu)} t=1−γ + γ exp(μ)γ exp(μ),所以有 f ′ ′ ( ξ ) = t ( 1 − t ) ≤ 1 4 f^{\prime \prime}(\xi)=t\ (1-t)\le\ \frac{1}{4} f′′(ξ)=t (1−t)≤ 41,即得: f ( μ ) ≤ μ 2 8 = λ 2 ( b − a ) 2 8 (7) f(\mu)\le \ \frac{\mu^2}{8}=\frac{\lambda^2\ (b-a)^2}{8}\tag{7} f(μ)≤ 8μ2=8λ2 (b−a)2(7)
8、由不等式(6)和(7)以及 f ( μ ) f(\mu) f(μ) 的定义可得:
E [ e x p ( λ Z ) ] ≤ e x p ( λ 2 ( b − a ) 2 8 ) (8) E[\ exp(\lambda Z)\ ] \le exp(\frac{\lambda^2\ (b-a)^2}{8})\tag{8} E[ exp(λZ) ]≤exp(8λ2 (b−a)2)(8)
综上所述可得: E [ e x p ( λ ( Z − E ( Z ) ) ) ] ≤ e x p ( λ 2 ( b − a ) 2 8 ) E[\ exp(\ \lambda(Z-E(Z))\ )\ ]\le exp(\frac{\lambda^2\ (b-a)^2}{8}) E[ exp( λ(Z−E(Z)) ) ]≤exp(8λ2 (b−a)2)
到此霍夫丁引理证毕!
五、Hoeffding’s Inequality(霍夫丁不等式)
- 定理:设有
N
N
N 个随机变量
Z
i
Z_i
Zi,都有
Z
i
∈
[
a
,
b
]
Z_i \in [\ a, b\ ]
Zi∈[ a,b ],且其中
−
∞
<
a
≤
b
<
∞
-\infty <a\le b<\infty
−∞<a≤b<∞,
t
>
0
t>0
t>0,既有:
P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≥ t ) ≤ e x p ( − 2 N t 2 ( b − a ) 2 ) P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le exp(-\frac{2Nt^2}{(b-a)^2}) P(N1 i=1∑N(Zi−E(Zi))≥t )≤exp(−(b−a)22Nt2) - 证明如下:
1、由 P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i)) P(N1 ∑i=1N(Zi−E(Zi)) 可得: P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≥ t ) = P ( ∑ i = 1 N ( Z i − E ( Z i ) ≥ N t ) ≤ E [ e s ∑ i = 1 N ( Z i − E ( Z i ) ] e s N t = ∏ i = 1 N E [ e s ( Z i − E ( Z i ) ) ] e s N t \begin{aligned} P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ ) & = \color{red}P(\sum_{i=1}^N(Z_i-E(Z_i)\ge Nt) \\ & \color{red}\le \frac{E[\ e^{s\sum_{i=1}^N(Z_i-E(Z_i)}\ ]}{e^{sNt}} \\ & = \frac{\prod_{i=1}^N E[\ e^{s(Z_i-E(Z_i))}\ ]}{e^{sNt}} \end{aligned} P(N1 i=1∑N(Zi−E(Zi))≥t )=P(i=1∑N(Zi−E(Zi)≥Nt)≤esNtE[ es∑i=1N(Zi−E(Zi) ]=esNt∏i=1NE[ es(Zi−E(Zi)) ]
注意:红色部分使用的是切诺夫界,其中的 s > 0 s>0 s>0 ! ! !
即得:
P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≤ ∏ i = 1 N E [ e s ( Z i − E ( Z i ) ) ] e s N t (9) P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i)) \le \frac{\prod_{i=1}^N E[\ e^{s(Z_i-E(Z_i))}\ ]}{e^{sNt}}\tag{9} P(N1 i=1∑N(Zi−E(Zi))≤esNt∏i=1NE[ es(Zi−E(Zi)) ](9)
2、不等式(9)通过霍夫丁引理可化简得:(这里使用 e x p ( x ) exp(x) exp(x) 代替 e x e^x ex)
P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≥ t ) ≤ ∏ i = 1 N E [ e x p [ s ( Z i − E ( Z i ) ) ] ] e x p ( s N t ) ≤ ∏ i = 1 N e x p ( s 2 ( b − a ) 2 8 ) e x p ( s N t ) = e x p [ N s 2 ( b − a ) 2 8 − s N t ] \begin{aligned} P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ ) & \le \frac{\prod_{i=1}^N \color{red}E[\ exp[s(Z_i-E(Z_i))]\ ]}{exp(sNt)} \\ & \le \frac{\prod_{i=1}^N \color{red}exp(\frac{s^2\ (b-a)^2}{8})}{exp(sNt)} \\ & = exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ] \end{aligned} P(N1 i=1∑N(Zi−E(Zi))≥t )≤exp(sNt)∏i=1NE[ exp[s(Zi−E(Zi))] ]≤exp(sNt)∏i=1Nexp(8s2 (b−a)2)=exp[ 8Ns2 (b−a)2−sNt ]即得:
P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≥ t ) ≤ e x p [ N s 2 ( b − a ) 2 8 − s N t ] (10) P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ]\tag{10} P(N1 i=1∑N(Zi−E(Zi))≥t )≤exp[ 8Ns2 (b−a)2−sNt ](10)
3、令 h ( s ) = N s 2 ( b − a ) 2 8 − s N t h(s)= \frac{Ns^2\ (b-a)^2}{8}-sNt h(s)=8Ns2 (b−a)2−sNt,可以看出它是一个关于 s s s 的二次函数,且 s > 0 s>0 s>0,因为对称轴: s ^ = 4 t ( b − a ) 2 > 0 \widehat{s}=\frac{4t}{(b-a)^2}>0 s =(b−a)24t>0,所以函数 h ( s ) h(s) h(s) 的最小值在对称轴上,即有:
m i n s > 0 e x p [ N s 2 ( b − a ) 2 8 − s N t ] = e x p ( − 2 N t 2 ( b − a ) 2 ) min_{s>0}\ exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ]=\ exp(-\frac{2Nt^2}{(b-a)^2}) mins>0 exp[ 8Ns2 (b−a)2−sNt ]= exp(−(b−a)22Nt2)
因为要保证不等式(10)恒成立,所以它必须小于函数 h ( s ) h(s) h(s) 的最小值,即得:
P ( 1 N ∑ i = 1 N ( Z i − E ( Z i ) ) ≥ t ) ≤ e x p ( − 2 N t 2 ( b − a ) 2 ) (11) P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le \ exp(-\frac{2Nt^2}{(b-a)^2}) \tag{11} P(N1 i=1∑N(Zi−E(Zi))≥t )≤ exp(−(b−a)22Nt2)(11)
到此霍夫丁不等式证毕!
紧接着对泛化误差上界进行证明
一、首先我们引入霍夫丁不等式定理
设有
N
N
N 个独立随机变量
X
i
X_i
Xi,都有
X
i
∈
[
a
i
,
b
i
]
(
i
=
1
,
2
,
.
.
.
,
N
)
X_i \in [\ a_i, b_i\ ]\ (i=1,2,...,N\ )
Xi∈[ ai,bi ] (i=1,2,...,N ),且其中
−
∞
<
a
i
≤
b
i
<
∞
,
-\infty <a_i\le b_i<\infty,
−∞<ai≤bi<∞,
X
‾
\overline{X}
X 是
X
1
,
X
2
,
.
.
.
,
X
N
X_1,X_2,...,X_N
X1,X2,...,XN 的实际均值(经验均值),即
X
‾
=
1
N
∑
i
=
1
N
X
i
\overline{X}=\frac{1}{N}\sum_{i=1}^NX_i
X=N1∑i=1NXi。
则对任意的
t
>
0
t>0
t>0,以下不等式成立:
{
P
(
(
X
‾
−
E
(
X
‾
)
)
≥
t
)
≤
e
x
p
[
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
]
P
(
(
E
(
X
‾
)
−
X
‾
)
≥
t
)
≤
e
x
p
[
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
]
\begin{cases} P( \ ( \overline{X}-E(\overline{X}))\ge t\ )\le exp[\ -\frac{2N^2t^2 }{\sum_{i=1}^N(b_i-a_i)^2}\ ] \\ \\ P( \ ( E(\overline{X})- \overline{X})\ge t\ )\le exp[ \ -\frac{2N^2t^2 }{\sum_{i=1}^N(b_i-a_i)^2}\ ] \end{cases}
⎩⎪⎪⎨⎪⎪⎧P( (X−E(X))≥t )≤exp[ −∑i=1N(bi−ai)22N2t2 ]P( (E(X)−X)≥t )≤exp[ −∑i=1N(bi−ai)22N2t2 ]
以上是霍夫丁不等式的变体,根据原不等式进行了调整(移项),这里用来推导泛化误差上界。
二、然后进入到泛化误差的场景中
1、对任意函数
f
∈
F
f \in \mathcal{F}
f∈F,
R
^
(
f
)
\widehat{R}(f)
R
(f) 是
N
N
N 个独立的随机变量
L
(
Y
,
f
(
X
)
)
L(Y,f(X))
L(Y,f(X)) 的样本均值,
R
(
f
)
R(f)
R(f) 是随机变量
L
(
Y
,
f
(
X
)
)
L(Y,f(X))
L(Y,f(X)) 的期望值。如果损失函数取值于
[
0
,
1
]
[\ 0,1\ ]
[ 0,1 ],即对所有的
i
,
[
a
i
,
b
i
]
=
[
0
,
1
]
i,[\ a_i,b_i\ ]= [\ 0,1\ ]
i,[ ai,bi ]=[ 0,1 ],那么由以上不等式可知,对任意的
ε
>
0
\varepsilon>0
ε>0,以下不等式成立:
P
(
R
(
f
)
−
R
^
(
f
)
≥
ε
)
≤
e
x
p
(
−
2
N
ε
2
)
(12)
P(\ R(f)-\widehat{R}(f)\ge \varepsilon\ )\le\ exp(\ -2N\varepsilon^2\ )\tag{12}
P( R(f)−R
(f)≥ε )≤ exp( −2Nε2 )(12)
{
期
望
风
险
:
R
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
经
验
风
险
:
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\begin{cases} 期望风险:R(f) = E[\ L(Y,f(X))\ ] \\ \\ 经验风险:\widehat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) \end{cases}
⎩⎪⎨⎪⎧期望风险:R(f)=E[ L(Y,f(X)) ]经验风险:R
(f)=N1∑i=1NL(yi,f(xi))
2、由于
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
\mathcal{F}=\{f_1,f_2,...,f_d\}
F={f1,f2,...,fd} 是一个有限集合,故:
P
(
∃
f
∈
F
:
R
(
f
)
−
R
^
(
f
)
≥
ε
)
=
P
(
⋃
f
∈
F
{
R
(
f
)
−
R
^
(
f
)
≥
ε
}
)
≤
∑
f
∈
F
P
(
R
(
f
)
−
R
^
(
f
)
≥
ε
)
≤
d
e
x
p
(
−
2
N
ε
2
)
\begin{aligned} P(\ \exists f \in \mathcal{F}: R(f)-\widehat{R}(f)\ge \varepsilon\ ) &= P(\ \bigcup_{f\in \mathcal{F}} \{R(f)-\widehat{R}(f)\ge \varepsilon\ \}) \\ & \le\ \sum_{f\in \mathcal{F}}P(R(f)-\widehat{R}(f)\ge \varepsilon\ )\\ & \le d\ exp( -2N\varepsilon^2\ ) \end{aligned}
P( ∃f∈F:R(f)−R
(f)≥ε )=P( f∈F⋃{R(f)−R
(f)≥ε })≤ f∈F∑P(R(f)−R
(f)≥ε )≤d exp(−2Nε2 )
3、等价的,对于任意的
f
∈
F
f \in \mathcal{F}
f∈F,有:
P
(
R
(
f
)
−
R
^
(
f
)
<
ε
)
≥
1
−
d
e
x
p
(
−
2
N
ε
2
)
(13)
P(\ R(f)-\widehat{R}(f)< \varepsilon\ )\ge\ 1- d\ exp(\ -2N\varepsilon^2\ )\tag{13}
P( R(f)−R
(f)<ε )≥ 1−d exp( −2Nε2 )(13)
4、令
δ
=
d
e
x
p
(
−
2
N
ε
2
)
\delta = d\ exp(\ -2N\varepsilon^2\ )
δ=d exp( −2Nε2 ),即有
ε
=
1
2
N
(
l
o
g
d
+
l
o
g
1
δ
)
\varepsilon = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}
ε=2N1(logd+logδ1),则:
P
(
R
(
f
)
−
R
^
(
f
)
<
ε
)
≥
1
−
δ
(14)
P(\ R(f)-\widehat{R}(f)< \varepsilon\ )\ge\ 1- \delta \tag{14}
P( R(f)−R
(f)<ε )≥ 1−δ(14)
5、即根据不等式(14)可以得知,至少以
1
−
δ
1-\delta
1−δ 的概率可以确定:
R
(
f
)
−
R
^
(
f
)
<
ε
(15)
R(f)-\widehat{R}(f)< \varepsilon \tag{15}
R(f)−R
(f)<ε(15)
6、但是我们关心的是泛化能力最差的那一个函数,即泛化误差最小的函数,这样获取的泛化误差上界才更具有普遍性,令经验风险最小化函数为:
f
N
=
a
r
g
m
i
n
f
∈
F
R
^
(
f
)
f_N = arg\ min_{f\in \mathcal{F}}\widehat{R}(f)
fN=arg minf∈FR
(f) ,即得:
R
(
f
N
)
=
E
[
L
(
Y
,
f
N
(
X
)
)
]
(16)
R(f_N)=E[\ L(Y,f_N(X))\ ] \tag{16}
R(fN)=E[ L(Y,fN(X)) ](16)
综上所述,泛化误差上界为:
R
(
f
N
)
−
R
^
(
f
N
)
<
ε
(
d
,
N
,
δ
)
R(f_N)-\widehat{R}(f_N)< \varepsilon(\ d,N,\delta\ )
R(fN)−R
(fN)<ε( d,N,δ )
到此泛化误差上界证毕!
霍夫丁不等式推导的论文链接:03_hoeffding.pdf
如有错误,还请指正!