二分类模型评估

张五儿

已于 2023-03-24 15:22:18 修改

阅读量1.4k

点赞数

分类专栏：算法文章标签：机器学习

于 2019-10-03 15:09:20 首次发布

本文链接：https://blog.csdn.net/huaruiyi/article/details/101976139

版权

算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

分类算法最常见的指标是分类准确率(accuracy)，而当样本中的分类极度不均衡时，accuracy不能说明问题（例如在100个观测样本中，有95个0，5个1，全部预测为0，accuracy是95%，已经很高了）。
一般我们用混淆矩阵(Confusion matrix)来描述二分类的好坏，也通过此矩阵衍生出一系列指标。

在这里插入图片描述
举例：

ROC曲线

ROC意指Receiver Operating Characteristic(受试者工作曲线),最初用来区分噪音和非噪音,一般用来度量二分类分类器的表现.
ROC曲线以灵敏度(tpr)作为y轴,假阳性率(fpr)作为x轴.即在预测为真的观测中,错误预测为真的概率(占所有假)为x,正确预测为真的概率(占所有真)为y的变化趋势.
评估二分类分类器除了可以用ROC曲线,也可以用精确度和灵敏度,或者综合指标F统计量去衡量
ROC曲线对正负样例占比不敏感,也就是说当正负样例的比例变化时,ROC曲线不会变化
在这里插入图片描述

AUC面积

AUC-Area Under ROC Curve:ROC曲线下的面积
用来衡量一个分类器的性能
AUC=1表示一个能完美区分所有正负样例的分类器
AUC=0.5表示随机分类的
AUC属于[0,1]
一般情况下不会有AUC<0.5的分类器
解释:一个分类器C的AUC面积表示:C随机抽取的一个正例的预测概率大于一个负例的预测概率的概率
即:auc©=P[C(x+)>C(x−)]

KS曲线

有两条曲线组成,横坐标为rpp,纵坐标为tpr和fpr
两条曲线可以区分在预测为正的样例中真正例和假正例的区分程度,也可以看成是精确度的一种度量方式
在这里插入图片描述

张五儿

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
二分类模型评估

分类算法最常见的指标是分类准确率(accuracy)，而当样本中的分类极度不均衡时，accuracy不能说明问题（例如在100个观测样本中，有95个0，5个1，全部预测为0，accuracy是95%，已经很高了）。一般我们用混淆矩阵(Confusion matrix)来描述二分类的好坏，也通过此矩阵衍生出一系列指标。举例：ROC曲线ROC意指Receiver Operating Ch...
复制链接

扫一扫