一文彻底搞懂ROC曲线与AUC的概念
1. ROC曲线的初级含义
要了解ROC的含义,必须先搞懂混淆矩阵的含义,以及精确率、召回率的含义。
1.1 精确率和召回率
对于一个分类任务的测试集,其本身有正负两类标签,我们对于这个测试集有一个预测标签,也是正负值。对于这些样本,我们的预测是否正确?有可能正样本我们预测成了负样本,负样本我们预测成了正样本,如何用我们的预测结果来评价我们的模型呢?那么就要有如下定义了:TP:真正例,样本为正,预测为正、TN:真负例,样本为负,预测为负、FP:假正例,样本为负,预测为正、FN:假负例,样本为正,预测为负。混淆矩阵如下图所示。
即精确率的含义是:命中的正样本数比所有的预测为正的样本数
召回率的含义是:命中的正样本数比所有样本集中的正样本数
精确率衡量查得多准,召回率衡量查得多全。
这里尤其要注意,精确率和准确率是不一样的,准确率应该用预测正确的样本数除以样本总数: a c c u r a c y = T P + T N T P + T N + F P + F N accuracy=\frac{TP+TN}{TP+TN+FP+FN} accuracy=TP+TN+F