ROC和AUC的原理及AUC计算方法

最新推荐文章于 2024-08-22 08:51:11 发布

lzhfcao

最新推荐文章于 2024-08-22 08:51:11 发布

阅读量2.5k

点赞数 1

本文链接：https://blog.csdn.net/lzhfcao/article/details/102479688

版权

本文介绍了ROC曲线和AUC在非均衡分类问题中的应用。ROC曲线通过假阳率（FPR）和真阳率（TPR）展示了分类器性能，AUC作为评价标准，值越大表示分类器效果越好。ROC曲线不受类不平衡影响，是评估分类器性能的有力工具。

摘要由CSDN通过智能技术生成

1.非均衡分类问题

在大多数情况下不同类别的分类代价并不相等，即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中，我们希望重要的邮件永远不要被误判为垃圾邮件，还有在癌症检测中，宁愿误判也不漏判。在这种情况下，仅仅使用分类错误率来度量是不充分的，这样的度量错误掩盖了样例如何被错分的事实。所以，在分类中，当某个类别的重要性高于其他类别时，可以使用Precison和Recall多个比分类错误率更好的新指标。

Precison（查准率）：预测为正例的样本中真正正例的比例。

Recall（召回率）：真正为正例的样本有多少被预测出来。

可见，我们可以根据我们最终的目标来选择度量指标。例如，在癌症检测中，我们希望选择Recall较高的模型（有病为正例）。而在垃圾邮件过滤中，我们希望选择Precison较高的模型。但是我们很容易构造一个高查准率或高召回率的分类器，但是很难保证两者同时成立。构建一个同时使两者很大的分类器是具有挑战性的。

ROC就是一个用于度量分类中的非均衡性的工具

2.ROC曲线

ROC（Receiver Operating Characteristic）曲线和AUC（area under the curve）常被用来评价一个二值分类器（binary classifier）的优劣。

下面简单介绍ROC和AUC的特点，以及更为深入地讨论如何作出ROC曲线图以及计算AUC。

需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision，recall，F-score，以及我们今天要讨论的ROC和AUC。

ROC可以用来比较不同分类器的相关性能,下图是一个ROC曲线的示例。

其中，ROC曲线的横坐标为false positive rate（FPR 假阳率），纵坐标为true positive rate（TPR 真阳率）。

FPR：所有负例中有多少被预测为正例； TPR：有多少真正的正例被预测出来；

ROC 描绘了两者的相对权衡：

benefits(true postives)
costs（false positives）

下图中详细说明了FPR和TPR是如何定义的：

下图帮助理解概率分布：

F-measure: precison和recall的调和平均值。没有一个单个的度量可以告诉所有的信息，所以建议使用多个度量。

接下来我们考虑ROC曲线图

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。