本文介绍模型评估与性能度量方法。
0x01、损失函数与风险函数
机器学习模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。损失函数(或代价函数)度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
1、常用的损失函数
(1)0-1损失函数(0-1 loss function)
(2)平方损失函数(quadratic loss function)
(3)绝对损失函数(absolute loss function)
(4)对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
损失函数值越小,模型就越好。由于模型的输入、输出 是随机变量,遵循联合分布 ,所以损失函数的期望是:
这是理论上模型 关于联合分布 的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。学习的目标就是选择期望风险最小的模型。
给定一个训练数据集 ,模型 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)记作:
期望风险 是模型关于联合分布的期望损失,经验风险