1. 损失函数和风险函数
监督学习问题是在假设空间 F \mathit{F} F中选取模型 f f f作为决策函数,对于给定的输入 X X X,由 f ( X ) f(X) f(X)给出相应的输出 Y Y Y,这个输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y可能一样也可能不一样,用损失函数(loss function)来度量预测错误的程度。损失函数是 f ( X ) f(X) f(X)和 Y Y Y的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)) 。
损失函数值越小,模型就越好,由于模型的输入输出
(
X
,
Y
)
(X,Y)
(X,Y)是随机变量,遵循联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),所以损失函数的期望是:
我们将这个函数称为“风险函数”或“期望损失”,对于这个函数我们可以这样理解:里面的
x
x
x和
y
y
y代表真实的输入和输出的数据点,
X
X
X和
Y
Y
Y是真实的输入和输出的集合,
x
x
x和
y
y
y同时出现的概率为
P
(
x
,
y
)
P(x,y)
P(x,y),而
x
x
x和
y
y
y的损失函数值是
L
(
y
,
f
(
x
)
)
L(y,f(x))
L(y,f(x)),所以损失函数的期望就是给每一对输入输出数据点的损失函数值和概率之积求和。
计算上式的难点是 P ( x , y ) P(x,y) P(x,y)是未知的,所以根本无法计算期望损失,也就无法跟据这个函数值来衡量模型的好坏了。
为了解决这个问题,提出了“经验风险”的概念。
2. 经验风险
给定一个训练数据集:
模型
f
(
X
)
f(X)
f(X)关于训练数据集的平均损失称为经验风险,记作
R
e
m
p
R_{emp}
Remp:
根据大数定理,当样本容量N趋于无穷的时候,经验风险
R
e
m
p
R_{emp}
Remp趋近于期望风险
R
e
x
p
R_{exp}
Rexp,所以这里提出了用经验风险去估计期望风险。但是一般上的样本容量不会很大,所以用经验风险去估计期望风险的效果常常不理想,所以就要对经验风险进行矫正,这就引出了“经验风险最小化”和“结构风险最小化”这两个概念。
3. 经验风险最小化和结构风险最小化
经验风险最小化问题其实就是模型最优问题:
也就是说在样本容量一定的情况下寻找最优的模型
f
f
f使得经验风险最小。
但是当样本容量过小的时候容易出现过拟合的现象,这时就提出了结构风险最小化的概念,为的就是防止过拟合,方法时添加惩罚项。惩罚项的作用是简化模型。
其中
J
(
f
)
J(f)
J(f)表示模型的复杂度,
λ
>
=
0
\lambda>=0
λ>=0是系数。
结构风险最小化:
也就是说在样本容量一定的情况下寻找既优秀又简单的模型使得结构风险最小。