性能度量
即对学习器泛化能力的评估标准。根据不同的任务需求选择不同的性能度量方式
回归任务中性能度量
最常用的性能度量方式是: 均方误差
更一般的,对于数据集D 和概率密度p ,均方误差可以描述为:
分类任务中性能度量
1. 错误率与精度
错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,错误率+精度=1。
2. 查准率、查全率、F1
查准率:也称为准确率precision,即预测结果是正类的样本中分类正确的比例。
查全率:也称为召回率recall,即实际是正类样本被分类正确的比例。
混淆矩阵如下:
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例True Positive) | FN(假反例False Negative) |
反例 | FP(假正例False Positive) | TN(真反例True Negative) |
F1:查全率和查准率其实是一对矛盾的度量,想要查全率高,可以把所有样本都选进来,那自然所有的实际正类样本都被挑出来了,查全率自然高,但查准率会低;想要查准率高,可以把最可能是正类的样本选进来,那查准率就高了,但肯定预测出来的正类不全。因此 F1就是基于P和R的调和平均。但是为什么不用算术平均而是用调和平均呢?
原因是调和平均会在P和R相差较大时偏向较小的值。Fβ中的β>0,度量了P和R的相对重要性。
3. ROC与AUC
很多学习器是为测试样本产生一个实值或概率预测,然后将之歌预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为反类。因此将学习器的预测结果对样本进行排序,按照顺序逐个将样本作为正例预测,每次算出TPR(真正例率)和FPR(假正例率),分别TPR和FPR作为纵坐标和横坐标,最后构成的曲线叫“ROC曲线”。ROC称为‘受试者工作特征’。
TPR(相当于查全率R,正例被判断为正例的概率)
FPR(反例被判断为正例的概率)
AUC为ROC曲线下的面积,可以用来比较学习器的优劣。
4. 代价敏感错误率与代价曲线
之后再补