理解有争议,暂时放这里,后续优化。
-
损失函数:定义在单个训练样本的损失/误差,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的。
-
代价函数(Cost function):定义在整个训练集整体的误差描述,也就是所有样本的误差的总和,也就是损失函数的总和。
某种意义上,损失函数等价于(就是)代价函数
-
经验风险:经验风险(经验损失):模型 f ( X ) f(X) f(X)关于训练数据集的平均损失.
-
期望损失(风险函数):模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失。
期望风险:模型关于联合分布的期望损失,联合分布未知,无法求解。当样本容量N趋于无穷时,经验风险趋于期望风险,一般数据集有限,所以经验风险估计期望风险不理想。 所以引出经验风险最小化以及结构风险最小化。
-
经验风险最小化:极大似然估计是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数的时候,经验风险最小化等价于极大似然估计。
样本容量很小,经验风险最小化的效果未必好,会产生过拟合。
-
结构风险最小化:防止过拟合的策略。经验风险+正则化项表示结构风险。贝叶斯的最大后验概率估计就是结构风险最小化的例子。当模型是条件概率分布,损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。
总的概括:损失是一个样本的,代价函数是整个样本的,经验风险是代价函数的平均,结构风险就是在经验风险的基础上加上了正则。