一、常用评价指标
错误率: 分类错误的样本数占样本总数的比例
精度: 分类正确的样本数占样本总数的比例,错误率+精度=1
查准率(precision):算法挑出来的样本中有多少比例是正样本
查全率(recall): 所有的正样本中有多少比例被算法挑了出来
查准率与查全率是一对矛盾的度量。一般来说,查准率高,查全率就低;查全率高,查准率就高。
而在实际的模型评估中,单用查准率或者查全率来评价模型是不完整的,评价模型时必须用查准率/查全率两个值。一般有三种使用方法:平衡点(Break-Even
Point,BEP)、F1度量、F1度量的一般化形式。
这里只介绍F1度量:F1是基于查准率与查全率的调和平均定义的
显然F1越大越好
以《机器学习》西瓜问题为例
- TP: 正确地标记为正,即算法预测它为好西瓜,这个西瓜真实情况也是好西瓜(双重肯定是肯定);
- FP: 错误地标记为正,即算法预测它是好西瓜,但这个西瓜真实情况是坏西瓜