Hoeffding 不等式
第 2 版,
设
X
1
,
X
2
,
,
⋯
,
X
N
X_1,X_2,,\cdots,X_N
X1,X2,,⋯,XN 是独立随机变量,且
X
i
∈
[
a
i
,
b
i
]
,
i
=
1
,
2
,
⋯
,
N
X_{i} \in [a_i,b_i],i=1,2,\cdots,N
Xi∈[ai,bi],i=1,2,⋯,N;
X
ˉ
\bar{X}
Xˉ 是
X
1
,
X
2
,
,
⋯
,
X
N
X_1,X_2,,\cdots,X_N
X1,X2,,⋯,XN 的经验均值,即
X
ˉ
=
1
N
∑
i
=
1
N
X
i
\bar{X}=\frac{1}{N} \sum_{i=1}^N X_i
Xˉ=N1∑i=1NXi,则对任意
t
>
0
t>0
t>0,以下不等式成立:
P
[
X
ˉ
−
E
(
X
ˉ
)
≥
t
]
≤
exp
(
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
)
P
[
E
(
X
ˉ
)
−
X
ˉ
≥
t
]
≤
exp
(
−
2
N
2
t
2
∑
i
=
1
N
(
b
i
−
a
i
)
2
)
P[\bar{X}-E(\bar{X}) \geq t] \leq \exp \left( -\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2} \right) \\ P[E(\bar{X})-\bar{X} \geq t] \leq \exp \left( -\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2} \right)
P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22N2t2)P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N(bi−ai)22N2t2)
第 1 版,
设
S
n
=
∑
i
=
1
N
X
i
S_n = \sum_{i=1}^NX_i
Sn=∑i=1NXi 是独立随机变量
X
1
,
X
2
,
,
⋯
,
X
n
X_1,X_2,,\cdots,X_n
X1,X2,,⋯,Xn 之和,
X
i
∈
[
a
i
,
b
i
]
X_{i} \in [a_i,b_i]
Xi∈[ai,bi],则对任意
t
>
0
t>0
t>0,以下不等式成立:
P
(
S
n
−
E
S
n
≥
t
)
≤
exp
(
−
2
t
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
P
(
E
S
n
−
S
n
≥
t
)
≤
exp
(
−
2
t
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
P(S_n - ES_n \geq t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n(b_i-a_i)^2} \right) \\ P(ES_n - S_n \geq t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n(b_i-a_i)^2} \right)
P(Sn−ESn≥t)≤exp(−∑i=1n(bi−ai)22t2)P(ESn−Sn≥t)≤exp(−∑i=1n(bi−ai)22t2)
S
n
=
∑
i
=
1
n
X
i
S_n = \sum_{i=1}^nX_i
Sn=∑i=1nXi,
E
S
n
=
E
(
∑
i
=
1
n
X
i
)
ES_n = E(\sum_{i=1}^nX_i)
ESn=E(∑i=1nXi),考虑随机变量序列的均值
X
ˉ
n
=
S
n
n
\bar{X}_n = \frac{S_n}{n}
Xˉn=nSn 和随机变量序列均值的期望
E
(
X
ˉ
n
)
=
E
S
n
n
E(\bar{X}_n) = \frac{ES_n}{n}
E(Xˉn)=nESn,看随机变量序列的均值到均值的期望之间的距离
≥
t
\geq t
≥t 的概率是被什么控制住,
P
(
X
ˉ
n
−
E
(
X
ˉ
n
)
≥
t
)
=
P
(
S
n
−
E
S
n
≥
n
t
)
≤
exp
(
−
2
n
2
t
2
∑
(
b
i
−
a
i
)
2
)
\begin{aligned} P(\bar{X}_n - E(\bar{X}_n) \geq t) &= P(S_n - ES_n \geq nt) \\ &\leq \exp\left( -\frac{2n^2t^2}{\sum(b_i-a_i)^2} \right) \end{aligned}
P(Xˉn−E(Xˉn)≥t)=P(Sn−ESn≥nt)≤exp(−∑(bi−ai)22n2t2)
当随机变量序列的包含的随机变量个数 n 比较大的时候,分子是 n 2 n^2 n2 的阶,分母是 n n n 项求和,每一项可以看做是一个常数,所以是一个 n n n 的阶,整个式子就是 e − n e^{-n} e−n 阶,当 n → ∞ n \rightarrow \infty n→∞,整个式子 → 0 \rightarrow 0 →0,即当样本量很大的时候,随机变量序列的均值到均值的期望之间的距离 ≥ t \geq t ≥t 的概率趋于 0。
期望损失与经验损失
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数(loss function)或代价函数(cost function),度量预测错误的程度,是 f ( X ) f(X) f(X) 和 Y Y Y 的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))。
模型的输入、输出
(
X
,
Y
)
(X,Y)
(X,Y) 是随机变量,遵循联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),所以损失函数的期望是
R
e
x
p
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
\begin{aligned} R_{exp}(f) &= E_P[L(Y,f(X))] \\ &= \int_\mathcal{X \times Y}L(y,f(x))P(x,y)\mathrm{d}x\mathrm{d}y \end{aligned}
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
这是理论上模型
f
(
X
)
f(X)
f(X) 关于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y) 的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
学习的目标就是选择期望风险最小的模型。由于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y) 是未知的,
R
e
x
p
R_{exp}
Rexp 不能直接计算。
给定一个训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}
T={(x1,y1),(x2,y2),⋯,(xN,yN)}
模型
f
(
X
)
f(X)
f(X) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作
R
e
m
p
R_{emp}
Remp:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
期望风险 R e x p R_{exp} Rexp 是模型关于联合分布的期望损失,经验风险 R e m p R_{emp} Remp 是模型关于训练样本集的平均损失,根据大数定律,当样本容量 N N N 趋于无穷时,经验风险 R e m p R_{emp} Remp 趋于期望风险 R e x p R_{exp} Rexp。
泛化误差上界证明1
考虑二类分类问题的泛化误差上界,已知训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}
T={(x1,y1),(x2,y2),⋯,(xN,yN)},
N
N
N 是样本容量,
T
T
T 是从联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y) 独立同分布产生的,
X
∈
R
n
X \in \mathbf{R}^n
X∈Rn,
Y
∈
{
−
1
,
+
1
}
Y \in \{-1,+1\}
Y∈{−1,+1}。假设空间是函数的有限集合
F
=
{
f
1
,
f
2
,
⋯
,
f
d
}
\mathcal{F} = \{f_1,f_2,\cdots,f_d\}
F={f1,f2,⋯,fd},
d
d
d 是函数个数。设
f
f
f 是从
F
\mathcal{F}
F 中选取的函数,损失是
0
−
1
0-1
0−1 损失。关于
f
f
f 的期望风险和经验风险分别是
R
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R(f) = E[L(Y,f(X))] \\ \hat{R}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))
R(f)=E[L(Y,f(X))]R^(f)=N1i=1∑NL(yi,f(xi))
泛化误差上界的含义,备选模型 f,在训练集上的经验风险,加上一个小的 ε \varepsilon ε 项,可以控制住它在测试集上的期望风险。
从假设空间中任选一个备选模型 f,它在训练集上的经验风险,就是一个随机变量序列的均值
R
^
(
f
)
\hat{R}(f)
R^(f),这个随机变量序列均值的期望
R
(
f
)
R(f)
R(f) 就是期望风险,它代表着这个模型在测试集上的表现,代入 Hoeffding 不等式,考虑一个备选模型,
P
(
R
(
f
)
−
R
^
(
f
)
≥
ε
)
≤
exp
(
−
−
2
N
2
ε
2
N
)
=
exp
(
−
2
N
ϵ
2
)
P(R(f)-\hat{R}(f) \geq \varepsilon) \leq \exp(-\frac{-2N^2\varepsilon^2}{N}) = \exp(-2N\epsilon^2 )
P(R(f)−R^(f)≥ε)≤exp(−N−2N2ε2)=exp(−2Nϵ2)
d 个备选模型,它在训练集上的经验风险和期望风险上的差值都不大,考虑这个事件的对立事件,存在一个备选模型,它使得期望风险与经验风险的距离比较大,
P
(
∃
f
∈
F
:
R
(
f
)
−
R
^
(
f
)
≥
ε
)
=
P
(
R
(
f
1
)
−
R
^
(
f
1
)
≥
ε
⋃
R
(
f
2
)
−
R
^
(
f
2
)
≥
ε
⋃
⋯
⋃
R
(
f
d
)
−
R
^
(
f
d
)
≥
ε
)
≤
∑
f
∈
F
P
(
R
(
f
)
−
R
^
(
f
)
≥
ε
)
≤
d
exp
(
−
2
N
ε
2
)
\begin{aligned} P(\exists f \in \mathcal{F}:R(f)-\hat{R}(f) \geq \varepsilon) &= P(R(f_1)-\hat{R}(f_1) \geq \varepsilon \bigcup R(f_2)-\hat{R}(f_2) \geq \varepsilon \bigcup \cdots \bigcup R(f_d)-\hat{R}(f_d) \geq \varepsilon) \\ & \leq \sum_{f \in \mathcal{F}}P(R(f)-\hat{R}(f) \geq \varepsilon) \\ & \leq d\exp(-2N\varepsilon^2) \end{aligned}
P(∃f∈F:R(f)−R^(f)≥ε)=P(R(f1)−R^(f1)≥ε⋃R(f2)−R^(f2)≥ε⋃⋯⋃R(fd)−R^(fd)≥ε)≤f∈F∑P(R(f)−R^(f)≥ε)≤dexp(−2Nε2)
对立事件,
P
(
∀
f
∈
F
:
R
(
f
)
−
R
^
(
f
)
<
ε
)
≥
1
−
d
exp
(
−
2
N
ϵ
2
)
P(\forall f \in \mathcal{F}:R(f)-\hat{R}(f) \lt \varepsilon) \geq 1-d\exp(-2N\epsilon^2 )
P(∀f∈F:R(f)−R^(f)<ε)≥1−dexp(−2Nϵ2)
令
δ
=
d
exp
(
−
2
N
ε
2
)
\delta=d\exp(-2N\varepsilon^2)
δ=dexp(−2Nε2)
则
P
(
R
(
f
)
<
R
^
(
f
)
+
ε
)
≥
1
−
δ
P(R(f) \lt \hat{R}(f)+\varepsilon) \geq 1-\delta
P(R(f)<R^(f)+ε)≥1−δ
即至少以概率 1 − δ 1-\delta 1−δ 有 R ( f ) < R ^ ( f ) + ε R(f) \lt \hat{R}(f)+\varepsilon R(f)<R^(f)+ε
ε
\varepsilon
ε的计算,
δ
=
d
exp
(
−
2
N
ϵ
2
)
δ
d
=
exp
(
−
2
N
ϵ
2
)
d
δ
=
exp
(
2
N
ϵ
2
)
log
d
δ
=
log
exp
(
2
N
ϵ
2
)
1
2
N
(
log
d
+
log
1
δ
)
=
ε
2
log
e
1
2
N
(
log
d
+
log
1
δ
)
=
ε
\begin{aligned} \delta = d\exp(-2N\epsilon^2) \\ \frac{\delta}{d}=\exp(-2N\epsilon^2) \\ \frac{d}{\delta}=\exp(2N\epsilon^2) \\ \log\frac{d}{\delta}=\log\exp(2N\epsilon^2) \\ \frac{1}{2N}(\log d + \log\frac{1}{\delta})=\varepsilon^2\log e \\ \sqrt{\frac{1}{2N}(\log d + \log\frac{1}{\delta})}=\varepsilon \end{aligned}
δ=dexp(−2Nϵ2)dδ=exp(−2Nϵ2)δd=exp(2Nϵ2)logδd=logexp(2Nϵ2)2N1(logd+logδ1)=ε2loge2N1(logd+logδ1)=ε
微信公众号「padluo」,分享数据科学家的自我修养,既然遇见,不如一起成长。关注【数据分析】公众号,后台回复【文章】,获得整理好的【数据分析】文章全集。
参考文档