- 召回率、准确率、ROC曲线、AUC、PR曲线
机器学习中对于分类的评估指标有准确率、召回率、F值、ROC曲线、AUC和PR曲线等。
1.1 介绍指标之前,先引入混淆矩阵
True Postive: 将正样本预测为正类的个数
True Negative: 将负样本预测为负类的个数
False Postive: 将负样本预测为正类的个数
False Negative: 将正样本预测为负类的个数
1.2 准确率
评价分类器性能一般的指标为分类准确率,准确率衡量的是正确分类的样本数占总样本数的比例,公式为:
A c c = T P + T N T P + T N + F P + F N \ Acc = \frac{TP+TN}{TP+TN+FP+FN} Acc=TP+TN+FP+FNTP+TN
1.3 召回率和精确率
召回率和精确率主要用于评估二分类问题,召回率是指有多少个正样本被分到了正类,其公式为:
R = T P T P + F N \ R = \frac{TP}{TP+FN} R=TP+FNTP
精确率是指分到的正样本中有多少个是正确的,其公式为:
P = T P T P + F P \ P = \frac{TP}{TP+FP} P=TP+FPTP
F1值是精确率和召回率的调和均值
F 1 = 2 T P 2 T P + F P + F N \ F_1 = \frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP
4.4 ROC曲线和AUC
ROC曲线是接收者操作特征,ROC曲线上的每个点反映了对同一信号刺激的感受性。
横轴FPR:在所有实际为反例的样本中,被错误地判断为正例的比例。
纵轴:在所有实际为正例的样本中,被正确地判断为正例的比例,即召回率。
ROC曲线约接近左上角,效果越好。AUC是指ROC曲线下的面积,AUC可以作为数值直观的评价分类器的好坏,AUC值越大,模型越好。
AUC的理解:
AUC为TPR与FPR之比,当实际的正负样本数差不多的时候,可以看作TP和FP的比,当AUC在x=y的左上方时候,说明该点被判断为正确的概率比较大。
ROC曲线的优缺点:
优点是不会随着类别分布的改变而改变,TPR聚焦于正例,FPR聚焦于负例,使得ROC方法为一个比较均衡的评估方法。即正例或负例某一方数量上出现了较大的变化,也不会影响另一方的值,具有比较强的鲁棒性。但是,在类别不平衡的情况下,负例增加很多的时候,曲线却没有发生变化,这会使得ROC曲线呈现一个过分乐观的估计。当我们更多地关注正例的预测准确性的时候,这个就会造成错误判断。ROC曲线的横轴采用FPR,当负例N的数量远超正例P时,FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例,在ROC曲线上却无法直观地看出来。
参考链接:https://www.imooc.com/article/48072
https://blog.csdn.net/chen_yiwei/article/details/88086086