AUC和ROC指标

机器学习分类器性能指标:roc曲线和auc值
真正类率(True positive Rate)TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例;
负正类率(False positive Rate)FPR:FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。
真负率(True Negative Rate)TNR:TN/(FP+TN),代表分类器预测的负类中实际负例占所有负实例的比例。
roc曲线横轴FPR:FRP越大,预测正类中实际负类越多。
纵轴TPR:TPR越大,预测正类中实际正类越多。
假设采用逻辑回归分类器,给出针对每个实例为正类的概率,通过设定一个阈值0.6,概率大于等于0.6为正类,小于0.6为负类。对应的就可以计算出一组(FPR,TPR),在平面中得到对应的坐标点。随着阈值的逐渐减小,越来越多的实例被划分到正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0);阈值最小时,对应坐标点(1,1),(a)图中实线为ROC曲线,线上每个点对应一个阈值。
ROC曲线
理想目标:TPR=1,FPR=0,即图中的(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity,specificity越大效果越好。
auc:roc曲线下的面积,介于0.1和1之间。auc作为数值可以直观的评价分类器的好坏,值越大越好。
首先AUC值是一个概率值,随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前的概率就是AUC值。AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好的分类。
已经有很多标准,为什么还要使用AUC和ROC呢?
ROC曲线的优点:当测试集中的正负样本的分布交换时,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不均衡,即正负样本比列差距较大,而且测试数据中的正负样本也可能随着时间变化。如图是roc曲线和presision-recall曲线对比:
在这里插入图片描述
(a)和(b)是分类其在原始测试集(正负样本分布均衡)的结果,©和(d)是将测试集中的负样本的数量增加到原来的10倍后,分类器的结果,可以明显的看出,roc曲线基本保持原貌,而precision-recall曲线变化不大。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值