损失函数(loss function)/代价函数(cost function)和风险函数(risk function)/期望损失(expected loss)
1. 损失函数/代价函数
常用的损失函数有:
(1)0-1损失函数(0-1 loss function)
(2)平方损失函数(quadratic loss function)
(3)绝对损失函数(absolute loss function)
(4)对数损失函数(logarithmic loss function)
(5)指数损失函数(exponential loss function)
(6)交叉熵损失函数 (Cross-entropy loss function)
损失函数越小,模型越好。损失函数是一次的拟合结果,一次具有偶然性,因此提出了风险函数。
2. 风险函数/期望损失
理论上模型关于联合分布的平均意义下的损失,也就是损失函数的期望。
风险函数是用来度量平均意义下的模型预测能力的好坏。
学习的目标在于选择期望风险最小的模型,但是P(X,Y)是未知的,因此,无法直接进行求解。
3. 经验风险(empirical risk)/经验损失函数(empirical loss)
模型关于训练数据集的平均损失。
期望风险 是模型关于联合分布的期望损失,经验风险 是模型在训练集上的平均损失。根据大数定律,当样本容量趋于无穷时,这两个损失基本相等。但是现实中训练样本数量往往有限,从而用经验风险估计期望风险往往并不理想,需要对经验风险进行一定的矫正,这就涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
4. 经验风险最小化(ERM)和结构风险最小化(SRM)
4.1 经验风险最小化(ERM)
经验风险最小化策略认为,经验风险最小的模型就是最优的模型,即:
当样本容量较小时,经验风险最小化的准则会导致过拟合问题的出现。
训练误差和测试误差与模型复杂度的关系
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;测试误差会先减小,达到最小值后又增大,当模型复杂度过大时,就会发生过拟合现象。
4.2 结构风险最小化(SRM)
结构风险最小化等价于正则化(也叫做罚项)。其表达式为:
其中 J(f)为模型的复杂度,是定义在假设空间F上的泛函。其中λ是系数,用于权衡经验风险和模型复杂度对模型优劣的影响。
正则化(regularization)
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项,也称为罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项值就越大。
LP范数是常用的正则项。
范数:
- L0范数:指向量中非0的元素的个数。(NP难问题,一般用L1替代)
- L1范数:表示向量中所有元素绝对值的和。
- L2范数: 表示某个向量中所有元素平方和再开根。
以yθ=θ1+θ2x为例(涉及到凸优化等):
L1正则化相对于L2正则化具有稀疏性(也就是有更多的0)。
参考文献:
统计学习方法————李航