1. 混淆矩阵---确定截断点后,评价学习器性能
TP(实际为正预测为正),FP(实际为负但预测为正),FN(实际为正但预测为负),TN(实际为负预测为负)
通过混淆矩阵我们可以给出各指标的值:
查全率(召回率,Recall):样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率:
查全率 = TP / (TP+FN)
查准率(精准率,Precision):针对预测结果而言,预测为正的样本有多少是真正的正样本,衡量的是查准率,预测正确的正例数占预测为正例总量的比率:
查准率 = TP / (TP+FP)
准确率(Accuracy):反映分类器对整个样本的判定能力,能将正的判定为正,负的判定为负的能力,计算公式:
Accuracy=(TP+TN) / (TP+FP+FN+TN)
阴性预测值:可以理解为负样本的查准率,阴性预测值被预测准确的比例,计算公式:
NPV=正确预测到的负例数/实际负例总数=TN / (TN+FN)
如果为多分类,也可以通过混淆矩阵得到上述指标的具体值。
查准率和查全率通常是一对矛盾的度量,通常一个高,另外一个就低。通常只有在一些简单任务中,才可能使查准率和查全率都很高。两个指标都很重要,我们应该根据实际情况综合考虑这两个指标。会有一个查准率=查全率的“平衡点”(BEP),过了这个点,查全率将增加,查准率将降低。
查准率-查全率曲线,即P-R曲线: