不平衡数据的分类评价指标总结

最新推荐文章于 2024-04-19 09:42:31 发布

Candy_GL

最新推荐文章于 2024-04-19 09:42:31 发布

阅读量7.2k

点赞数 3

分类专栏：机器学习文章标签：不平衡数据的分类阈值

机器学习专栏收录该内容

31 篇文章

订阅专栏

转自：https://blog.csdn.net/sqiu_11/article/details/78396443

识别任务中混淆矩阵（Confusion Matrix）用于评价算法好坏的指标。下图是一个二分类问题的混淆矩阵：

TP：正确肯定——实际是正例，识别为正例

FN：错误否定（漏报）——实际是正例，却识别成了负例

FP：错误肯定（误报）——实际是负例，却识别成了正例

TN：正确否定——实际是负例，识别为负例

相关术语：

AccuracyRate(准确率): (TP+TN)/(TP+TN+FN+FP)

ErrorRate(误分率): (FN+FP)/(TP+TN+FN+FP)

Recall(召回率，查全率,击中概率): TP/(TP+FN), 在所有GroundTruth为正样本中有多少被识别为正样本了;

Precision(查准率):TP/(TP+FP),在所有识别成正样本中有多少是真正的正样本；

TPR(TruePositive Rate): TP/(TP+FN),实际就是Recall

FAR(FalseAcceptance Rate)或FPR(False Positive Rate)：FP/(FP+TN)，错误接收率，误报率，在所有GroundTruth为负样本中有多少被识别为正样本了;

FRR(FalseRejection Rate): FN/(TP+FN)，错误拒绝率，拒真率，在所有GroundTruth为正样本中有多少被识别为负样本了，它等于1-Recall

ROC曲线（receiver operatingcharacteristic curve）：在不平衡数据分类中最常用的指标之一

横轴是FAR,纵轴是Recall;
每个阈值的识别结果对应一个点(FPR，TPR),当阈值最大时，所有样本都被识别成负样本，对应于左下角的点(0,0)，当阈值最小时，所有样本都被识别成正样本，对应于右上角的点(1,1)，随着阈值从最大变化到最小，识别为正样本的可能性变大，TP和FP都逐渐增大；随着阈值从最小变化到最大，将负样本识别为正样本的可能性变小(FP减小)，将正样本识别为负样本的可能性在增大(FN)；
一个好的分类模型应尽可能位于图像的左上角，而一个随机猜测模型应位于连接点（TPR=0,FPR=0）和（TPR=1,FPR=1）的主对角线上；
可以使用ROC曲线下方的面积AUC（AreaUnder roc Curve）值来度量算法好坏：如果模型是完美的，那么它的AUG = 1，如果模型是个简单的随机猜测模型，那么它的AUG = 0.5，如果一个模型好于另一个，则它的曲线下方面积相对较大；
(不平衡数据选择多大的阈值最好？)：ERR（Equal Error Rate,相等错误率）：FAR和FRR是同一个算法系统的两个参数，把它放在同一个坐标中。FAR是随阈值增大而减小的，FRR是随阈值增大而增大的。因此它们一定有交点。这个点是在某个阈值下的FAR与FRR等值的点。习惯上用这一点的值来衡量算法的综合性能。对于一个更优的指纹算法，希望在相同阈值情况下，FAR和FRR都越小越好。

AUC: 阴影部分面积，在(0-1)之间，值越大说明分类越好

示例代码待续....

--------------------- 本文来自 sqiu_11 的CSDN 博客，全文地址请点击：https://blog.csdn.net/sqiu_11/article/details/78396443?utm_source=copy

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。