引入
我们需要一定的准则来评估不同机器学习模型的优劣,这就引申出损失函数和风险函数。
损失函数:评估模型单次预测的好坏
风险函数:度量平均意义下模型的好坏
损失函数的定义
监督学习是在假设空间 F F F中选取模型 f f f作为决策函数,对于给定的输入 X X X,由 f ( X ) f(X) f(X)给出相应的输出 Y Y Y,用损失函数来衡量预测值 f ( X ) f(X) f(X)和真实值 Y Y Y之间的差距,它是一个非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))。
常用的损失函数
1. 0-1损失函数
L ( Y , f ( x ) ) = { 1 , Y ! = f ( x ) 0 , Y = f ( x ) L(Y,f(x))= \begin{cases} 1, Y!=f(x) \\ 0, Y = f(x) \end{cases} L(Y,f(x))={1,Y!=f(x)0,Y=f(x)
2. 平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2
3. 绝对损失函数
L ( Y , P ( Y ∣ X ) ) = ∣ Y − f ( X ) ∣ L(Y,P(Y|X))=|Y-f(X)| L(Y,P(Y∣X))=∣Y−f(X)∣
4. 对数似然损失函数
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)
风险函数
当损失函数越小时意味着模型拟合效果越好,损失函数的期望是:
R
e
x
p
(
f
)
=
E
p
[
L
(
Y
,
f
(
x
)
)
]
=
∫
x
×
y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(f)=E_p[L(Y,f(x))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy
Rexp(f)=Ep[L(Y,f(x))]=∫x×yL(y,f(x))P(x,y)dxdy
这是理论上模`
f
(
X
)
f(X)
f(X)关于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)的平均意义下的损失,称为风险函数(或者期望损失)。
风险函数与监督学习的关系
监督学习的目的就是选择令期望风险最小化的模型,但是由于联合分布 P ( X , Y ) P(X,Y) P(X,Y)未知,风险函数的值并不能直接计算,所以监督学习就称为一个病态问题(ill-formed problem)。
经验风险损失
由于风险函数并不能直接计算,我们转而求模型
f
(
X
)
f(X)
f(X)在训练数据集上的平均损失作为经验风险损失,记作
R
e
m
p
R_{emp}
Remp。
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
R e x p ( f ) R_{exp}(f) Rexp(f)是模型 f ( x ) f(x) f(x)关于联合分布的期望损失, R e m p ( f ) R_{emp}(f) Remp(f)是模型 f ( x ) f(x) f(x)在训练集上的平均损失。根据大数定律,当样本容量 N N N趋于无穷是,这两个损失基本相等。但是现实中训练样本数量往往有限,从而用经验风险估计期望风险往往并不理想,需要对经验风险进行一定的矫正,这就涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化
经验风险最小化策略认为,经验风险最小的模型就是最优的模型,即:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min_{f\in F} \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))
f∈FminN1i=1∑NL(yi,f(xi))
当样本容量足够大时,经验风险最小化能保证具有较好的学习效果,在现实中也被广泛采用。例如极大似然估计就是经验风险最小化的一个例子(在模型是条件概率分布,损失函数是对数损失函数时等价)。
结构风险最小化
当样本容量较小时,经验风险最小化的准则会导致过拟合问题的出现,结构风险最小化等价于正则化(也叫做罚项)。定义如下:
R
s
r
m
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}=\frac{1}{N}L(y_i,f(x_i))+\lambda J(f)
Rsrm=N1L(yi,f(xi))+λJ(f)
其中
J
(
f
)
J(f)
J(f)为模型的复杂度,是定义在假设空间
F
F
F上的泛函。其中
λ
≥
0
\lambda\geq0
λ≥0是系数,用于权衡经验风险和模型复杂度对模型优劣的影响。
结构风险较小的模型往往对训练数据以及未知的测试数据都有较好的预测。例如贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子(在模型是条件概率分布,损失函数是对数损失概率且模型复杂度由模型的先验概率表示时等价)。
结论
监督学习的问题可以转化为经验风险或者结构风险函数的最优化问题,这时候经验或者结构风险函数就是最优化的目标函数。
内容来源
《统计学习方法》——李航