1、混淆矩阵(以二分类为例)
标准集 | |||
验证集 | 真实的P样本(positive) | 真实的N样本(Negtive) | |
预测的P样本 | TP(预测的P是真的) | FP(预测的P是假的) | |
预测的N样本 | FN(预测的N是假的) | TN(预测的N是真的) |
现在开始解释各种真阳、假阴。
举例:由医学引入机器学习;
一个病人,长了个肿瘤,去医院检查,分别有以下情况:
1、真实情况:恶性,检查结果:恶性,这种情况就叫做:true positve,姑且称为真阳性吧。
2、真实情况:良性,检查结果:恶性,这种情况就叫做:false positve,假阳性。
3、真实情况:恶性,检查结果:良性,这种情况就叫做:false negative,假阴性。
4、真实情况:良性,检查结果:良性,这种情况就叫做:true negtive,真阴性。
好拗口,上表。(注意:阳性是有病,阴性是没病)
金准集 | |||
某筛检方法 | 阳性(恶性) | 阴性(良性) | |
阳性(恶性) | TP(真阳性) | FP(假阳性) | |
阴性(良性) | FN(假阴性) | TN(真阴性) |
发现一切命名以预测的结果为主。
2、真阳率与假阳率
真阳率(True Positive Rate, TPR)就是:
TP/(TP+FN)
含义是检测出来的真阳性样本数除以所有真实阳性样本数。
假阳率(False Positive Rate, FPR)就是:
FP/(FP+TN)
含义是检测出来的假阳性样本数除以所有真实阴性样本数
3、各种率
误检率:FP/(FP+TN)
查准率(精确度,命中率,precion):TP/(TP+FP) 反映了被分类器判定的正例中真正的正例样本的比重
查全率(召回率,覆盖率,sensitivity):TP/(TP+FN) 反映了被正确判定的正例占总的真实为正例比例的比重
漏警率: MA = FN/(TP+FN) ; 反映有多少个正例被漏判了。
虚警率: FA = FP/(TP+FP); 反映被判为正例样本中,有多少个负例。
4、Precsion 、Recall
查全率(召回率, 覆盖率)Recall:正样本有多少被找出来(召回了多少)
查准率(精确度,命中率)Precision: 你认为的正样本,有多少被猜对了(猜的准确性如何)