1. 分类情况:
针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况.
(1)若一个实例是正类并且被预测为正类,即为真阳性(True Postive TP)
(2)若一个实例是正类,但是被预测成为负类,即为伪阴性(False Negative FN)
(3)若一个实例是负类,但是被预测成为正类,即为伪阳性(False Postive FP)
(4)若一个实例是负类,但是被预测成为负类,即为真阴性(True Negative TN)
TP:正确的肯定数目
FN:漏报,没有找到正确匹配的数目
FP:误报,没有的匹配不正确
TN:正确拒绝的非匹配数目
2. 准确率ACC
ACC = (TP + TN) / (P + N)
即:(真阳性+真阴性) / 总样本数
3. 精准率和召回率
精确率 :P = TP / (TP + FP)
召回率: R = TP / (TP + FN)
F1: 精确率和召回率的调和平均。 即: 2/F1 = 1/P + 1/R
直观上来解释精确率和召回率。
精确率表示我现在有了这么的预测为正的样本,那么这些样本中有多少是真的为正呢?
召回率表示我现在预测为正的这些值中,占了所有的正的为正的样本的多大比例呢?
不同的分类问题,对精确率和召回率的要求也不同。
例如:假币预测,就需要很高的精确率,我需要你给我的预测数据具有很高的准确性。
肿瘤预测就需要很高的召回率。“宁可错杀三千,不可放过一个”。