ROC&AUC

ROC与AUC解析

1.1 解决什么问题

        概念不会凭空产生,创造概念一定是为解决某个问题。

  • ROC曲线和AUC是为评价二值分类器而产生的;
  • ROC曲线和AUC可以非常好地解决分类问题中类别不平衡的问题。

1.2 如何解决问题

        相关概念是如何定义的,这些概念又该如何使用。搞清定义与用法方才算是入门。
        为了方便理解,下文中的概率值统一表示属于正样本的概率值。

1.2.1 如何画出ROC曲线

        分类器的一个重要功能是“概率输出”,即表示分类器认为某个样本具有多大的概率属于正样本。而分类器也拥有一定的标准(阈值),当概率大于该阈值时样本被划分为正样本。以FPR为横坐标,TPR为纵坐标,在确定阈值下必有确定的TPR和FRP,即ROC曲线上的一个点。当为分类器设定多个阈值后,便会形成一条经过点(0,0)和(1,1)的曲线,该曲线便是ROC曲线。简而言之,AUC是一条阐述分类器性能随阈值变化而变化的曲线。

Alt text
        TPR指正样本的正确率,FPR为负样本的错误率,我在博客Evaluating Models中对TPR和FPR的含义进行了阐述。

1.2.2 如何计算AUC

AUC简单来说就是ROC曲线下的面积。Fawcett从数学角度为AUC给出了更准确的定义:

The AUC value is equivalent to the probability that a
randomly chosen positive example is ranked higher than
a randomly chosen negative example.

这里将AUC作为了一个概率值,它指当随机挑选一个正样本和负样本时,正样本的得分高于负样本得分的概率。这里的得分也就是分类器输出的概率值。

Alt text

        AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值,这里不做详细阐述,感兴趣者可自行百度或维基。

1.2.3 如何使用

        AUC和ROC曲线都是为了评价分类模型。ROC曲线下的面积(AUC)越大越好。
        设经过(0,0)和(1,1)的直线为 L L L,当ROC曲线位于 L L L上方时(AUC较大时),正样本的正确率大于负样本的错误率,即被划分为正样本的样本大多数是真的正样本。而ROC曲线位于 L L L下方时(AUC较小时),正样本的正确率小于负样本的错误率,即被划分为正样本的样本大多是负样本。显而易见,AUC越大越好。

1.3 特点或优势

        ROC 曲线是由不同阈值下计算得到的 T P R TPR TPR F P R FPR FPR对应的点组成的。当正样本较多时, T P R TPR TPR会增大,同时 F P R FPR FPR也会增大,它们对应的点会向坐标系右上方移动。而ROC曲线的方向也是由左下到右上,因此重新计算得到点可能还是在ROC曲线上滑动,不会对曲线分布造成影响。因此ROC曲线和AUC的显著特点为:

  • 面对样本不平衡有着很好的鲁棒性。

        借助下图可能会更好理解这种鲁棒性:
ALt text
其中(a)©为ROC曲线,(b)(d)为准确率-召回率曲线,从上到下变化为负样本数增加。

1.4 参考

  1. Wikipedia:Receiver operating characteristic
  2. zhwhong的博客:机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值