统计学习方法三要素
统计学习方法可以简单的表示为:
方法=模型+策略+算法
模型
在监督学习过程中:
定义:所要学习的条件概率分布或决策函数
注:模型的假设空间(hypothesis space)包含的所有可能的条件概率分布或决策函数
假设空间用 F \mathcal{F} F表示
非概率模型
决策函数的集合(假设空间)
F
=
{
f
∣
Y
=
f
(
X
)
}
\mathcal{F}=\{f \mid Y=f(X)\}
F={f∣Y=f(X)}
其中X和Y是定义在输入空间和输出空间上的变量
F
\mathcal{F}
F通常是由一个参数向量决定的函数族
F
=
{
f
∣
Y
=
f
θ
(
X
)
,
θ
∈
R
n
}
\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}
F={f∣Y=fθ(X),θ∈Rn}
注:参数向量是
θ
θ
θ,
R
n
R^n
Rn为参数空间
概率模型
假设空间定义为条件概率集合:
F
=
{
P
∣
P
(
Y
∣
X
)
}
\mathcal{F}=\{P \mid P(Y \mid X)\}
F={P∣P(Y∣X)}
由一个参数向量决定条件概率分布族
F
=
{
P
∣
P
θ
(
Y
∣
X
)
,
θ
∈
R
n
}
\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}
F={P∣Pθ(Y∣X),θ∈Rn}
注:参数向量是
θ
θ
θ,
R
n
R^n
Rn为参数空间
策略
思想:有了模型的假设空间后,接着需要考虑的是按照什么样的准则学习或者学则最优的模型。统计学习的目标在于从假设空间中选取最优的模型。
作用:选择最优模型
三大函数概念
损失函数:度量模型一次预测的好坏(真实值与预测值之间的差异),记:
L
(
Y
,
f
(
X
)
)
L(Y, f(X))
L(Y,f(X))
风险函数:度量平均意义下模型预测的好坏,对损失函数求期望:
R
exp
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
\begin{aligned} R_{\exp }(f) &=E_{P}[L(Y, f(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dx dy
其中
P
(
x
,
y
)
P(x,y)
P(x,y)联合概率分布是未知的所以风险函数无法直接进行计算我们又选择经验风险
经验风险:模型关于训练集的平均损失
对于给定数据集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}
T={(x1,y1),(x2,y2),⋯,(xN,yN)}
经验风险记作:
R
e
m
p
R_{\mathrm{emp}}
Remp
期望经验:R_{\exp }(f)
根据大数定律:当样本容量
N
N
N趋于无穷时,经验风险趋于期望风险。
损失函数的种类
0-1损失函数(0-1 loss function)
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{array}\right. L(Y,f(X))={1,0,Y=f(X)Y=f(X)
平方损失函数(quadratic loss function)
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Y−f(X))2
绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣
对数损失函数(logarithmic loss function)
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L(Y, P(Y \mid X))=-\log P(Y \mid X)
L(Y,P(Y∣X))=−logP(Y∣X)
损失函数越小模型越好,
算法
定义:指学习模型的具体计算方法