对于二分类问题,当假设空间是有限个函数的集合
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
F=\{f_1,f_2,...,f_d\}
F={f1,f2,...,fd}时,对
∀
f
∈
F
\forall f \in F
∀f∈F,至少以概率
1
−
δ
,
0
<
δ
<
1
1-\delta,0<\delta<1
1−δ,0<δ<1,以下不等式成立
R
(
f
)
≤
R
^
(
f
)
+
ϵ
(
d
,
N
,
δ
)
R(f)\leq \hat{R}(f)+\epsilon(d,N,\delta)
R(f)≤R^(f)+ϵ(d,N,δ)
其中,
ϵ
(
d
,
N
,
δ
)
=
1
2
N
(
l
o
g
d
+
l
o
g
1
δ
)
\epsilon(d, N, \delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}
ϵ(d,N,δ)=2N1(logd+logδ1)
这个公式描述了一个关于模型泛化性能的概率界限。让我解释这个公式的每个部分:
-
R ( f ) R(f) R(f):这表示真实风险(真实误差),也就是模型 f f f 在整个数据分布上的性能。真实风险是我们真正关心的,因为它表示了模型在未见数据上的表现。
-
R ^ ( f ) \hat{R}(f) R^(f):这表示经验风险,也称为训练误差。经验风险是模型在训练数据上的性能,即模型在已知数据上的表现。
-
ϵ ( d , N , δ ) \epsilon(d, N, \delta) ϵ(d,N,δ):这是一个上界,表示模型 f f f 的真实风险 R ( f ) R(f) R(f) 和经验风险 R ^ ( f ) \hat{R}(f) R^(f) 之间的差异上界。具体地,它被定义为:
ϵ ( d , N , δ ) = 1 2 N ( ln ( d ) + ln ( 1 / δ ) ) \epsilon(d, N, \delta) = \sqrt{\frac{1}{2N}(\ln(d) + \ln(1/\delta))} ϵ(d,N,δ)=2N1(ln(d)+ln(1/δ))
其中:
- d d d 是假设空间中的函数数量。假设空间是模型可以选择的不同函数的集合, d d d 表示这个集合中的函数数量。
- N N N 是训练数据的样本数量。 N N N 表示我们拥有的用于训练模型的样本数量。
- δ \delta δ 是置信度,它表示我们希望不等式成立的概率。即,我们希望以概率至少 1 − δ 1 - \delta 1−δ,不等式 R ( f ) ≤ R ^ ( f ) + ϵ ( d , N , δ ) R(f) \leq \hat{R}(f) + \epsilon(d, N, \delta) R(f)≤R^(f)+ϵ(d,N,δ) 成立。
这个不等式告诉我们,以概率至少 1 − δ 1 - \delta 1−δ,模型 f f f 的真实风险 R ( f ) R(f) R(f) 不会远远超过经验风险 R ^ ( f ) \hat{R}(f) R^(f) 加上一个与假设空间大小 d d d、样本数量 N N N 和置信度 δ \delta δ 有关的上界 ϵ ( d , N , δ ) \epsilon(d, N, \delta) ϵ(d,N,δ)。也就是说,我们可以使用经验风险来估计真实风险,并且可以在一定的概率下对真实风险进行界定。
这个不等式是机器学习中泛化理论的重要结果之一,它有助于我们理解模型在未见数据上的性能,并提供了一个可靠的误差估计。根据这个不等式,我们可以通过控制样本数量 N N N、假设空间大小 d d d 和置信度 δ \delta δ 来管理模型的性能估计和泛化性能。