名词解释
1. 输入空间:所有输入可能取值的集合,{
X
X
};
2. 输出空间:所有输出可能取值的集合,{};
3. 假设空间:由输入空间到输出空间的所有可能的映射的集合,
可以为决策函数的集合:
F={f|Y=f(x)}
F
=
{
f
|
Y
=
f
(
x
)
}
,或条件概率的集合:
F={P|P(Y|X)}
F
=
{
P
|
P
(
Y
|
X
)
}
统计学习的三要素为:模型,策略,方法。
1.模型
在监督学习中,模型是所要学习的条件概率分布 P(y|x) P ( y | x ) 或决策函数 y=f(x) y = f ( x ) 。在假设空间中,模型有无穷多个。
2.策略
策略是指如何在假设空间的无穷多个模型中选取最优模型,这里的“最优”就引出了如何评价模型的好坏的问题。
损失函数(loss function):
L(Y,f(X))
L
(
Y
,
f
(
X
)
)
,损失函数用于度量模型一次预测的好坏。
风险函数(risk function):
Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy
R
e
x
p
(
f
)
=
E
p
[
L
(
Y
,
f
(
X
)
)
]
=
∫
x
×
y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
,用于度量平均意义下模型的好坏。风险函数为损失函数的期望(expected loss),但是这仅仅是理论上的定义。实际上,由于
P(X,Y)
P
(
X
,
Y
)
不可知,多采用经验风险(empirical loss):
Remp=1N∑Ni=1L(yi,f(xi))
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
来代替,即求出训练样本集中损失函数的平均值。
两个基本策略:
当样本数量N趋于无穷大时,
Remp
R
e
m
p
趋近于
Rexp
R
e
x
p
,但实际情况中样本数量都是有限的,因此需采用一定的策略对经验风险
Remp
R
e
m
p
进行校正。
2.1 经验风险最小化(ERM)
在假设空间、损失函数和训练数据集确定的情况下,经验风险
Remp
R
e
m
p
函数式可以确定,可以采用经验风险最小化策略进行问题的求解:
例如极大似然估计就是经验风险最小化的例子。但是当样本数量太少时,容易出现“过拟合(over-fitting)”的问题。
2.2 结构风险最小化(SRM)
结构风险在经验风险后加入正则化项(regularizer)或罚项(penalty term),用于限制模型的复杂程度,防止过度复杂的模型产生的过拟合问题。表达式如下:
3. 算法
以上两步确定了模型的优化策略,最后剩下的就是如何求解的问题,即采用什么样的算法。