不平衡数据的分类评价指标总结

转自:https://blog.csdn.net/sqiu_11/article/details/78396443

识别任务中混淆矩阵(Confusion Matrix)用于评价算法好坏的指标。下图是一个二分类问题的混淆矩阵:

TP:正确肯定——实际是正例,识别为正例

FN:错误否定(漏报)——实际是正例,却识别成了负例

FP:错误肯定(误报)——实际是负例,却识别成了正例

TN:正确否定——实际是负例,识别为负例

 

相关术语:

AccuracyRate(准确率): (TP+TN)/(TP+TN+FN+FP)

ErrorRate(误分率): (FN+FP)/(TP+TN+FN+FP)

Recall(召回率,查全率,击中概率): TP/(TP+FN), 在所有GroundTruth为正样本中有多少被识别为正样本了;

Precision(查准率):TP/(TP+FP),在所有识别成正样本中有多少是真正的正样本;

TPR(TruePositive Rate): TP/(TP+FN),实际就是Recall

FAR(FalseAcceptance Rate)或FPR(False Positive Rate):FP/(FP+TN), 错误接收率,误报率,在所有GroundTruth为负样本中有多少被识别为正样本了;

FRR(FalseRejection Rate): FN/(TP+FN),错误拒绝率,拒真率,在所有GroundTruth为正样本中有多少被识别为负样本了,它等于1-Recall

 

ROC曲线(receiver operatingcharacteristic curve):在不平衡数据分类中最常用的指标之一

  1. 横轴是FAR,纵轴是Recall;

  2. 每个阈值的识别结果对应一个点(FPR,TPR),当阈值最大时,所有样本都被识别成负样本,对应于左下角的点(0,0),当阈值最小时,所有样本都被识别成正样本,对应于右上角的点(1,1),随着阈值从最大变化到最小,识别为正样本的可能性变大,TP和FP都逐渐增大;随着阈值从最小变化到最大,将负样本识别为正样本的可能性变小(FP减小),将正样本识别为负样本的可能性在增大(FN);

  3. 一个好的分类模型应尽可能位于图像的左上角,而一个随机猜测模型应位于连接点(TPR=0,FPR=0)和(TPR=1,FPR=1)的主对角线上;

  4. 可以使用ROC曲线下方的面积AUC(AreaUnder roc Curve)值来度量算法好坏:如果模型是完美的,那么它的AUG = 1,如果模型是个简单的随机猜测模型,那么它的AUG = 0.5,如果一个模型好于另一个,则它的曲线下方面积相对较大;

  5. (不平衡数据选择多大的阈值最好?):ERR(Equal Error Rate,相等错误率):FAR和FRR是同一个算法系统的两个参数,把它放在同一个坐标中。FAR是随阈值增大而减小的,FRR是随阈值增大而增大的。因此它们一定有交点。这个点是在某个阈值下的FAR与FRR等值的点。习惯上用这一点的值来衡量算法的综合性能。对于一个更优的指纹算法,希望在相同阈值情况下,FAR和FRR都越小越好。

AUC: 阴影部分面积,在(0-1)之间,值越大说明分类越好

 

示例代码待续....

 

--------------------- 本文来自 sqiu_11 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/sqiu_11/article/details/78396443?utm_source=copy 

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值