1. 泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。测试误差是依赖于测试数据集的,泛化误差是理论上的概念,如果学到的模型是
f
^
\hat{f}
f^,那么这个模型对未知数据预测的误差即为泛化误差:
R
e
x
p
(
f
^
)
=
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
…
…
(
1
)
R_{exp}(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int_{\mathcal{X}\times\mathcal{Y}}L(y,\hat{f}(x))P(x,y)dxdy ……(1)
Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy……(1)
泛化误差就是学习到的模型的期望风险。
2. 泛化误差上界
学习方法的泛化能力分析往往是研究泛化误差的概率上界,简称泛化误差上界。我们先用一个简单的二分类问题的例子来理解泛化上界:
设训练数据集
T
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
T={(x_1,y1),(x_2,y_2),\cdots ,(x_N,y_N)}
T=(x1,y1),(x2,y2),⋯,(xN,yN),T是从联合概率分布P(X,Y)独立同分布产生的,
X
∈
R
n
,
Y
∈
{
−
1
,
+
1
}
X\in R^n, Y\in \{-1,+1\}
X∈Rn,Y∈{−1,+1},假设空间是函数的有限集合
F
=
{
f
1
,
f
2
,
⋯
,
f
d
}
\mathcal{F}=\{f_1,f_2,\cdots ,f_d\}
F={f1,f2,⋯,fd},设f是从
F
\mathcal{F}
F中选取的函数,损失函数是0-1损失,则关于f的期望风险和经验风险分别是:
R
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
…
…
(
2
)
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
…
…
(
3
)
R(f)=E[L(Y,f(X))] ……(2)\\ \hat{R}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i)) ……(3)
R(f)=E[L(Y,f(X))]……(2)R^(f)=N1i=1∑NL(yi,f(xi))……(3)
经验风险最小化函数是:
f
N
=
a
r
g
min
f
∈
F
R
^
(
f
)
…
…
(
4
)
f_N=arg\min\limits_{f\in\mathcal{F}}\hat{R}(f)……(4)
fN=argf∈FminR^(f)……(4)
fN依赖于样本,因为只能从样本得到模型,所以人们更关心的是fN的泛化能力。
R
(
f
N
)
=
E
[
L
(
Y
,
f
N
(
X
)
)
]
…
…
(
5
)
R(f_N)=E[L(Y,f_N(X))] ……(5)
R(fN)=E[L(Y,fN(X))]……(5)
这样就可以根据f的训练误差,确定在一定概率下,f泛化误差的范围。