【算法岗面试知识点】模型评估(混淆矩阵,准确率,精准率,召回率,ROC,AUC)

1. 混淆矩阵

混淆矩阵
 真实类别1真实类别0
预测类别1

TP(True Positive)真阳

FP(False Positive) 伪阳
预测类别0FN(False Negative)伪阴TN(True Negative)真阴

2. 各种率

  • 准确率:Accuracy = (TP+TN)/(TP+FP+FN+TN)
  • 精准率:Precision = TP/(TP+FP)   #预测为正样本,有多少是真实的正样本
  • 召回率:Recall = TP/(TP+FN)  #真实正样本中,有多少正样本预测对了

3. ROC与AUC

  • 真阳率:TPRate = TP/(TP+FN)
  • 伪阳率:FPRate = FP/(FP+TN)

ROC曲线的横轴是FPRate,纵轴是TPRate;AUC是ROC曲线下的面积。

横轴:FPR越大,预测正类中实际负类越多

纵轴:TPR越大,预测正类中国实际正类越多

  • ROC的曲线意义:

(1)ROC曲线能够很容易查出任何阈值对学习器的泛化性能影响

(2)有助于选择最佳的阈值,ROC曲线越靠近左上角,模型的准确率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其中假正例和假负例总数最少。

(3)可以对不同学习器比较性能,将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优势,靠近左上角的ROC曲线所代表的的学习器准确性最高。

  • AUC面积的由来:

如果两条ROC曲线没有相交,我们可以根据哪条曲线最靠近左上角代表的学习性能最好来判断。但实际任务中,情况很复杂,如果两条ROC曲线发生了交叉,则很难判断,所以引入AUC面积。

  • AUC面积的意义:
    • AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率
    • 具体来说,AUC就是从所有正样本中随机选择一个样本,从所有负样本中随机选择一个样本,然后根据你的学习器对两个随机样本进行预测,把正样本预测为正例的概率p1,把负样本预测为正例的概率p2,p1>p2的概率就等于AUC。所以AUC反映的是分类器对样本的排序能力。
  • 为什么使用Roc和Auc评价分类器

既然已经这么多标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。

  • 为啥AUC对正负样本比例不敏感

主要是:AUC可以看做随机从正负样本中选取一对正负样本,其中正样本的得分大于负样本的概率

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值