curve函数 roc_零数学理解ROC-AUC指标

没有数学或公式,只有图像和动画。

0fe7eeb125b646f4ac9f713dc28c1e59.png

> Photo by Kalen Emsley on Unsplash

了解轴

这是典型的ROC图:

3db01e65d6ce0ee55c1f053033a034c3.png

在进行任何其他操作之前,我们需要了解轴的含义。 在不混淆公式的情况下,以下是最简单的解释:

· x轴(假阳性率,或FPR)是模型标记为阳性(假阳性)的实际阴性示例的比例。

· y轴(True Positive Rate,或TPR)是模型标记为正值(True Positive)的实际正例的比例。

注意两者之间的并行性! 本质上,ROC曲线是正正与负正的曲线,两个轴均已标准化。

与阈值的关系

每当我们看到折线图时,我们都倾向于根据时间的线性变化或x轴上表示的某些参数进行思考。 随着我们在x轴上增加参数,折线图也会进行。 思维过程通常是这样的:"对于x轴上的给定值,图表为我提供y轴上的相应值"。

但是ROC如此微妙-它不是从FPR值(x轴)到TPR值(y轴)的映射,因为您不能真正将TPR计算为FPR的函数。 那么,随着ROC曲线远离原点,会有什么变化? 答案是(请打鼓):阈值。

如果我们深入研究大多数分类模型,我们会发现它们不仅为数据点分配标签,还为数据点分配分数,然后将该分数与阈值进行比较,以确定是否将其分类为正数。 或否定:

3d1e707d1e688e076bee22b4cc93a442.png

> Classification Models use Scores and Thresholds Under-the-Hood

因此,给定阈值,该模型将为每个数据点生成一个分类。 对于给定的一组分类,您将分别获得TPR和FPR的一个值。 但是,随着阈值的变化,TPR和FPR都将在0到1之间变化。这就是为什么我们说阈值随ROC曲线的变化而变化。

极端案例

为了正确地可视化,让我们开始考虑极端情况; 这将为我们更好地了解ROC曲线在其他情况下的工作原理。

首先,考虑将阈值设置为最大值的情况。 没有任何东西的得分高于阈值,并且没有任何东西被模型标记为肯定。 这是ROC曲线在(0,0)时的情况:

6104f36a053ef12c328a9b577badf5c0.png

现在考虑另一种极端情况-阈值处于最小值时。 一切的得分都高于阈值,并且模型将一切标记为肯定。 这是ROC曲线位于(1,1)时的情况:

ff126e73dc8a135aa1b5e29343819318.png

两者之间的一切

贯穿这两个极端之间的一切看起来像这样:

3c09763c6790baa23d26f2cf738028bb.gif

随着模型阈值的降低,肯定预测的总数将增加。 ROC图表示那些阳性预测如何在真阳性和假阳性之间划分。

ROC曲线的理想特性

现在我们知道ROC曲线代表什么,我们可以开始理解什么会使给定的ROC曲线"好"或"不好"。

让我们再次看一看这些轴:

3db01e65d6ce0ee55c1f053033a034c3.png

很明显,我们要使用"真假阳性",而不要使用"假阳性"。 就轴而言,我们想在y轴上向上移动,但是我们不想在x轴上向前移动。 但是,ROC曲线从(0,0)一直延伸到(1,1)…换句话说,无论如何,您将一直沿x轴移动。

因此,ROC曲线的质量必须与曲线的形状有关。 为了了解什么形状会被认为是好的形状,我们返回到阈值图片以尝试了解什么使分类模型更好。 显然,一个对数据点进行评分的模型如下:

1a2e314f6f7c5bd6039f80fd59ae404b.png

比得分如下的数据点差:

9cf9708c605277a1b8f0b8cf82c17f67.png

这比像这样对数据点评分的方法更糟糕(理想情况):

36eaca9420936217fe5b619625fcb8e1.png

如果我们将所有这些及其ROC曲线进行比较,就会出现一个清晰的图样:

66bc18a71efa0fb203ccc9391f9a2764.gif

如果更多的白点(实际上是正数据点)比黑点(实际上是负点)高,则ROC曲线会在y轴(TPR)沿x轴(FPR)前进之前上升。 TPR上升越早,曲线下的面积越大:

873759a2ed3b1d33e4a1c4e93feb00a7.gif

因此,您经常会看到指标ROC-AUC(曲线下的ROC面积)或AUROC(曲线下的面积)被用作衡量分类算法性能的指标。

本质上,一条更好的ROC曲线是一条曲线下面积更大的曲线,因为这意味着分类模型将更多的阳性样本比阴性样本排名更高,即该模型具有更好的正负数据点分离(在 正确的方向)。

结论

希望这些动画和这些说明使您对ROC曲线是什么以及为什么我们选择ROC曲线下面积作为分类算法性能的度量标准有了更直观的了解。

(本文翻译自Rishabh Malviya的文章《A Zero-Math Intuitive Understanding of the ROC-AUC Metric》,参考:https://towardsdatascience.com/machine-learning-classification-making-sense-of-the-roc-curve-30a510bba81d)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值