数据挖掘建模中最后一步就是对模型进行效果评估,验证模型的性能,让你的模型具有说服力,本文对分类模型的评估做了汇总,并结合Sklearn讲解如何绘制ROC曲线、PR曲线。
混淆矩阵
真正例TP(True Positive)、假负例FN(False Negative)
假正例FP(False Positive)、真负例TN(True Negative)
分类评价指标说明:
- 精准率(Precision)也称查准率,表示模型预测结果为正样本的样例中,真实情况为正样本的样例所占比例。
- 召回率(Recall)也称查全率,表示真实情况为正样本的样例中,被模型预测为正样本的比例。
- 准确率(Accuracy)表示模型预测准的样例占总样本的比例。但是在实际建模中,很少使用这么指标,因为在正样本和负样本不均衡时,假如正样本950个,负样本50个,这是随意乱猜都为正样本,准确率也可以的高达95%,因此在样本分布不均时,一般不看这个指标,而是采用F1指标。
- F1也称F1_score,它是基于精准率和召回率的调和平均值。P指的是Precision,R指的是Recall
- Fβ对精准率和召回率设置不同的权重,区别对待,
当β>1时更看重召回率(查全率);当β<1时更看重精准率(查准率);当β=1时即为F1值。