统计学习三要素
方法=模型+策略+算法
1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
假设空间
F
\mathcal{F}
F用决策函数的定义的集合:
F
=
{
f
∣
Y
=
f
(
X
)
}
\mathcal{F}=\left\{ f|Y=f\left( X \right) \right\}
F={f∣Y=f(X)}
F
\mathcal{F}
F通常是由参数向量决定的函数族:
F
=
{
f
∣
Y
=
f
θ
(
X
)
,
θ
∈
R
n
}
\mathcal{F}=\left\{ f|Y=f_{\theta}\left( X \right) ,\theta \in \mathcal{R}^n \right\}
F={f∣Y=fθ(X),θ∈Rn}
或表示为条件概率的集合:
F
=
{
P
∣
P
(
Y
∣
X
)
}
\mathcal{F}=\left\{ P|P\left( Y|X \right) \right\}
F={P∣P(Y∣X)}
R n \mathcal{R}^n Rn称为参数空间。
2 策略
统计学习的目标在于从假设空间中选取最优模型。常用的评测方法为损失函数与风险函数,损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
2.1 损失函数
监督学习是在假设空间 F \mathcal{F} F中选取模型 f f f作为决策函数,对于给定的输入 X X X,由 f ( X ) f(X) f(X)给出相应的输出 Y Y Y,这个输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是 f ( X ) f(X) f(X)和 Y Y Y的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))。
A. 0-1损失函数(0-1 loss function)
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
=
f
(
X
)
0
,
Y
≠
f
(
X
)
L\left( Y,f\left( X \right) \right) =\begin{cases} 1, Y=f\left( X \right)\\ 0, Y\ne f\left( X \right)\\ \end{cases}
L(Y,f(X))={1,Y=f(X)0,Y=f(X)
B. 平方损失函数(quadratic loss function)
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L\left( Y,f\left( X \right) \right) =\left( Y-f\left( X \right) \right) ^2
L(Y,f(X))=(Y−f(X))2
C.绝对损失函数(absolute loss function)
L
(
Y
,
f
(
X
)
)
=
∣
Y
−
f
(
X
)
∣
L\left( Y,f\left( X \right) \right) =|Y-f\left( X \right) |
L(Y,f(X))=∣Y−f(X)∣
D.对数似然损失函数(loglikelihood loss function)
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L\left( Y,P\left( Y|X \right) \right) =-\log P\left( Y|X \right)
L(Y,P(Y∣X))=−logP(Y∣X)
2.2 风险函数(期望损失)
学习的目标就是选择期望风险最小的模型。损失函数值越小,模型就越好。由于模型的输入、输出
(
X
,
Y
)
(X,Y)
(X,Y)是随机变量,遵循联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),所以损失函数的期望
R
exp
(
f
)
R_{\exp}\left( f \right)
Rexp(f):
R
exp
(
f
)
=
E
p
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{\exp}\left( f \right) =E_p\left[ L\left( Y,f\left( X \right) \right) \right] =\int_{\mathcal{X}\times \mathcal{Y}}{L\left( y,f\left( x \right) \right) P\left( x,y \right) dxdy}
Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
由于联合分布 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以 R exp ( f ) R_{\exp}\left( f \right) Rexp(f)不能直接计算。正因为不知道联合概率分布,所以才需要进行学习。这样一来,一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为一个病态问题(ill-formed problem)。
给定训练数据集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
}
T=\left\{ \left( x_1,y_1 \right) ,\left( x_2,y_2 \right) ,...,\left( x_n,y_n \right) \right\}
T={(x1,y1),(x2,y2),...,(xn,yn)}
模型
f
(
X
)
f(X)
f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作
R
e
m
p
R_{emp}
Remp:
R
e
m
p
=
1
n
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
R_{emp}=\frac{1}{n}\sum_{i=1}^n{L\left( y_i,f\left( x_i \right) \right)}
Remp=n1i=1∑nL(yi,f(xi))
期望风险
R
e
x
p
(
f
)
R_{exp}(f)
Rexp(f)是模型关于联合分布的期望损失,经验风险
R
e
m
p
(
f
)
R_{emp}(f)
Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量
n
n
n趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法是用经验风险估计期望风险。
但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。 这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
2.3 经验风险最小化与结构风险最小化
A.经验风险最小化(适用于大量数据)
经验风险最小化(empirical risk minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。
即求解最优化问题:
min
f
∈
F
1
n
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
\underset{f\in \mathcal{F}}{\min}\,\,\frac{1}{n}\sum_{i=1}^n{L\left( y_i,f\left( x_i \right) \right)}
f∈Fminn1i=1∑nL(yi,f(xi))
当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
B.结构风险最小化(structural risk minimization,SRM)(防止过拟合)
当样本容量很小时,会产生“过拟合(over-fitting)”现象。结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。
结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term),结构风险的定义为:
R
s
r
m
(
f
)
=
1
n
∑
i
=
1
n
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}\left( f \right) =\,\,\frac{1}{n}\sum_{i=1}^n{L\left( y_i,f\left( x_i \right) \right)}+\lambda J\left( f \right)
Rsrm(f)=n1i=1∑nL(yi,f(xi))+λJ(f)
其中
J
(
f
)
J(f)
J(f)为模型的复杂度,是定义在假设空间上的泛函。
λ
>
0
\lambda>0
λ>0,用以权衡经验风险和模型复杂度。
结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子。
3 算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。