以二分类问题为例
混淆矩阵(Confusion Matrix)
对测试集数据进行预测,得到下列混淆矩阵中的数据
注:TP、FN、FP、TN以预测的结果是否准确来命名。
预测模型评估指标的本质是从模型预测结果出发来度量模型性能优劣的,如分类模型从混淆矩阵中得到各种不同的性能指标,回归模型直接从预测结果与真实结果的偏差角度进行分析。
根据混淆矩阵计算召回率(Recall)和精准率(Precision)指标
R e c a l l = T P T P + F N Recall = \frac{TP}{TP+FN} Recall=TP+FNTP
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP+FP} Precision=TP+FPTP
召回率与精准率是一对相互制约、此消彼长(负相关)的指标,实际应用中往往会牺牲某一指标来提高另一指标。
Gain的计算公式和Precision是一样的。
F1指标
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F_1 = \frac{2\times Precision\times Recall }{ Precision+Recall } F1=Precision+Recall2×Precision×Recall
F1指标综合考虑了召回率与精准率两个指标。
如果希望考虑更多的召回率或精准率,这有如下的变异形式,即 F β F_\beta Fβ指标:
F β = ( 1 + β 2 ) × P r e c i s i o n × R e c a l l β 2 × P r e c i s i o n + R e c