参考:https://zhuanlan.zhihu.com/p/498846393
虽然学了很多遍,但还是经常弄混这几个概念。实在是太绕了,真真假假,假假真真。归根到底,其实是没有正确理解两个标志位的含义。
基本概念
首先要明白两个标志位分别表示什么含义?第一位表示分类器是否预测正确,第二位表示分类器的预测结果。因此我们应该从后往前看,先看预测结果是Positive(正样本)还是Negative(负样本)?再看分类器有没有预测正确。
TP:True Positive,分类器预测结果为正样本,实际也为正样本,即正样本被正确识别的数量。
FP:False Positive,分类器预测结果为正样本,实际为负样本,即误报的负样本数量。
TN:True Negative,分类器预测结果为负样本,实际为负样本,即负样本被正确识别的数量。
FN:False Negative,分类器预测结果为负样本,实际为正样本,即漏报的正样本数量。
扩展概念
TP+FN:真实正样本的总和,正确分类的正样本数量+漏报的正样本数量。
FP+TN:真实负样本的总和,负样本被误识别为正样本数量+正确分类的负样本数量。
TP+TN:正确分类的样本总和,正确分类的正样本数量+正确分类的负样本数量。
TP和TN都好理解,直接看第二位P和N就很明确的看出代表的是正样本还是负样本的数量。怎么一眼看出来FP、FN实际代表的是正样本还是负样本的数量呢?这里先看预测结果是Postive还是Negative,然后取反即可。FP即正样本取反,实际是代表负样本的数量。FN即负样本取反,实际代表的是正样本的数量。
Accuracy:准确率
Accuracy表征的是预测正确的样本比例。不过通常不用这个概念,主要是因为预测正确的负样本这个没有太大意义。
Precision:查准率
Precision表征的是预测正确的正样本的准确度,查准率等于预测正确的正样本数量/所有预测为正样本数量。Precision越大说明误检的越少,Precision越小说明误检的越多。
Recall:查全率
Recall表征的是预测正确的正样本的覆盖率,查全率等于预测正确的正样本数量/所有正样本的总和,TP+FN实际就是Ground Truth的数量。Recall越大说明漏检的越少,Recall越小说明漏检的越多。
我刚开始觉得这几个名词很难理解。其实究其原因,主要是中文翻译的问题。precision翻译为准确,recall翻译为召回。如果把它们分别翻译为查准率,查全率,相信大家很容易就理解其含义了。