分类器性能指标：混淆矩阵、ROC曲线和AUC

最新推荐文章于 2024-03-25 01:31:08 发布

charie411

最新推荐文章于 2024-03-25 01:31:08 发布

阅读量799

点赞数

分类专栏：机器学习文章标签：性能评估

本文链接：https://blog.csdn.net/charie411/article/details/100083220

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

分类任务最常用的性能评估指标：混淆矩阵、准确率、召回率、精确率、F1以及AUC、ROC。

混淆矩阵

在实际问题中，我们往往更关注模型对某一特定类别的预测能力，这时，准确性指标就变得笼统了。比如在诊断肿瘤问题上，医生更关心多少恶性肿瘤被正确检出【召回率Recall】，而求诊人也害怕被错误检出，遭受精神折磨【精确率Precision】；在信用卡欺诈检测上，银行更关注多少欺诈用户被正确检出【覆盖率Recall】。在二分类任务下，预测结果和正确结果之间存在4种不同组合，构成混淆矩阵。恶性肿瘤为阳性(Positive)，良性肿瘤为阴性(Negative)，那么预测正确的恶性肿瘤为真阳性(TP)，预测正确的良性肿瘤为真阴性(TN)，原本是良性误判为恶性的是假阳性(FP)，原本是恶性但误判为良性的是假阴性(FN)。最不愿意看到的就是假阴性，因为这会耽误治疗，会给银行造成坏账损失。

评价指标
准确率 $Accuracy=\frac{\#TP+\#TN}{\#TP+\#TN+\#FP+\#FN}$

召回率 $\frac{\#TP}{\#TP+\#FN}$

精确率 $Precision=\frac{TP}{TP+FP}$

尽管有精确率和召回率指标，但它们并不能同时达到最优，需要妥协【trade-off】，达成最佳。
妥协方式是根据应用场景而有所侧重，通过改变分类器的Threshold来实现最优。在需要高精确率场景【比如侧重于患者不恐慌】，提高Threshold来提高准确率，但此时可能错过有问题的患者，召回率降低；在需要高召回率场景【宁可错不可放过】，减少Threshold来避免放过，但此时可能误诊，精确率低。
为了综合考量召回率与精确率，F1指标：
$\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}$

ROC和AUC

ROC曲线绘制不同Threshold下的真正例率和假正例率。曲线越接近左上方分类器性能越好。AUC【Area Under Curve】是以数值形式来描述模型的性能，便于比较多个分类器。AUC越大越好。
在这里插入图片描述
真正例率（覆盖率） $TPR=\frac{\#TP}{\#TP+\#FN}$
假正例率【阴性被误诊为阳性】 $FPR=\frac{\#FP}{\#TN+\#FP}$