混淆矩阵
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数误报
False Negative(假负,FN):将正类预测为负类数→漏报
1、 准确率(Accuracy)
定义:就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好。
反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负。
A
c
c
=
(
T
P
+
T
N
)
/
(
T
P
+
T
N
+
F
N
+
F
P
)
Acc=(TP+TN)/(TP+TN+FN+FP)
Acc=(TP+TN)/(TP+TN+FN+FP)
2、召回率(Recall)
定义:返回的结果中的正例占总的正例的比例,总的正例包括返回的正确的正例以及未返回的正例(即错误分为负例中的正例)
- 反映了被正确判定的正例占总的正例的比重。
- 所以为了提高召回率,可以多预测。
R = T P / ( T P + F N ) R=TP/(TP+FN) R=TP/(TP+FN)
eg:有128个样本,其中32个正,96个负。
我可以说,我预测有128个正样本。所以recall= 32/32 = 100%
3、精度(Precision)
定义:被分为正例中实际为正例的比例,反映了被分类器判定的正例中真正的正例样本的比重。
- 为了提高查准率(精度),可以少预测。
P = T P / ( T P + F P ) P=TP/(TP+FP) P=TP/(TP+FP)
eg:还是上面的例子,上面的precision = 32/128 = 25%
我为了提高precision,我可以只预测一个样本。这样就有1/4的概率能预测到。假设恰好预测到了正样本,此时precision = 1/1 = 100%