统计学习方法-李航(第一章4)
泛化能力
泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力,但这种评价依赖测试数据集,测试数据集是有限的。
统计上试图从理论上对学习方法的泛化能力进行分析。
如果学到的模型是
f
^
\hat f
f^,那么对未知数据预测的误差即为泛化误差(generalization error):
R
e
x
p
(
f
^
)
=
E
p
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
∗
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(\hat f)=E_p[L(Y,\hat f(X))]=\int_{X*Y}L(y,\hat f(x))P(x,y)dxdy
Rexp(f^)=Ep[L(Y,f^(X))]=∫X∗YL(y,f^(x))P(x,y)dxdy
泛化误差上界
性质:
1、它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
2、它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
考虑二分类问题的泛化误差上界
已知训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),... ,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)},它是从联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)独立同分布产生的,
X
∈
R
n
,
Y
∈
{
−
1
,
+
1
}
X\in R^n,Y\in\{ -1,+1\}
X∈Rn,Y∈{−1,+1}。假设空间是函数的有限集合
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
F=\{ f_1,f_2,...,f_d\}
F={f1,f2,...,fd},
d
d
d是函数个数。设
f
f
f是从
F
F
F中选取的函数,损失函数是0-1损失。关于
f
f
f的期望风险和经验风险是:
R
(
f
)
=
E
[
L
(
Y
,
f
(
X
)
)
]
R( f)=E[L(Y, f(X))]
R(f)=E[L(Y,f(X))]
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\hat R( f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))
R^(f)=N1i=1∑NL(yi,f(xi))
经验风险最小化函数为:
f
N
=
a
r
g
min
f
∈
F
R
^
(
f
)
f_N=arg\min_{f\in F}\hat R(f)
fN=argf∈FminR^(f)
f
N
f_N
fN的泛化能力
R
(
f
N
)
=
E
[
L
(
Y
,
f
N
(
X
)
)
]
R( f_N)=E[L(Y, f_N(X))]
R(fN)=E[L(Y,fN(X))].
讨论
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
F=\{ f_1,f_2,...,f_d\}
F={f1,f2,...,fd}中任意选出的函数
f
f
f的泛化误差上界。
泛化误差上界定理
泛化误差上界定理证明
训练误差小的模型,泛化误差也会小。
以上讨论的只是假设空间包含有限个函数情况下的泛化误差上界。