泛化能力:模型对未知数据的预测能力
泛化误差:模型是
f
^
\hat{f}
f^,该模型对于未知数据预测的误差即为泛化误差:
R
exp
(
f
^
)
=
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
\begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}
Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dx dy
实际上:泛化误差等价于期望风险:
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
E_{P}[L(Y, \hat{f}(X))]
EP[L(Y,f^(X))]
其中:
期望风险
R
(
f
)
R(f)
R(f)与经验风险
R
^
(
f
)
\hat{R}(f)
R^(f)的区别:期望风险的对象是未知的,待预测的数据;而经验风险指的是人为设计好的测试数据,数目为N,计算其平均损失误差。
R
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\begin{array}{c} R(f)=E[L(Y, f(X))] \\\\ \hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \end{array}
R(f)=E[L(Y,f(X))]R^(f)=N1∑i=1NL(yi,f(xi))
泛化误差上界体现在泛化误差其满足以下一个不等式:
R
(
f
)
⩽
R
^
(
f
)
+
ε
(
d
,
N
,
δ
)
ε
(
d
,
N
,
δ
)
=
1
2
N
(
log
d
+
log
1
δ
)
\begin{array}{c} R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) \\\\ \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \end{array}
R(f)⩽R^(f)+ε(d,N,δ)ε(d,N,δ)=2N1(logd+logδ1)
其中
d
d
d表示为函数个数,假设空间是由有限个函数组成的,表示为:
F
=
{
f
1
,
f
2
,
⋯
,
f
d
}
\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}
F={f1,f2,⋯,fd}
证明过程可以参考Hoeffding不等式。
根据泛化误差上界可以得出几个比较重要的结论:
1、泛化误差=期望风险,泛化误差上限越小,说明期望风险越小,其预期值越加靠近真实值,体现其泛化能力越强。
2、当样本容量N增大时,泛化误差上界趋向于0,泛化能力越好。
3、当假设空间容量(模型的复杂性)越大,模型越难学,
d
d
d越大,泛化误差上界越大,泛化能力越差。
参考:李航 统计学习方法第二版