ROC曲线和 AUC 直白详解

最新推荐文章于 2024-12-20 17:05:28 发布

小小酥_LH

最新推荐文章于 2024-12-20 17:05:28 发布

阅读量2.9k

点赞数 3

分类专栏：大数据数据挖掘机器学习模型评估

本文链接：https://blog.csdn.net/q322625/article/details/86472635

版权

大数据同时被 3 个专栏收录

3 篇文章

订阅专栏

数据挖掘

1 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

ROC曲线

定义

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种坐标图式的分析工具，用于
(1) 选择最佳的信号侦测模型、舍弃次佳的模型。
(2) 在同一模型中设定最佳阈值。

这里我们只要记得 ROC曲线 主要是用来确定一个模型的阈值。

理解
既然我们想要直白来理解 ROC曲线，那么例子是肯定少不了的：
假设1：感冒有三种特征，咳嗽，发烧，流鼻涕。
假设2：如果想确定一个人是否得了感冒，可以根据三种特征来打分，每个特征可以打 0-1 分。打分越高，得感冒概率越高。
假设3：现在你是一个医生，有100个病人来看病，你需要根据这些人的三个感冒特征给他们打分，得到如下一组数据 (编号，分数)：
```
(1,2) (2,2.4) (2,0.4)....(100,3)
```
假设4：我是一个神医，能百分百确定别人是否得了感冒。然后我看了你的报告，并给每个数据都给了确定的答案，所以数据就变成了（编号，是否真感冒，分数）（其中感冒60人，正常40人）
```
(1,0,2) (2,1,2.4) (2,0,0.4)....(100,1,3)
```
好了，现在问题来了，你是给每个病人打分了，病人也知道分数越高得感冒得概率越高，但是，到底得没得感冒却没有一个标准，这个标准就是上面说的阈值，所以接下来就是要想办法确定这个阈值或者标准了，那么我们采用办法呢？对于这种 二分类 问题的阈值，就是我们 ROC 曲线大展身手的时候了。
ROC 曲线和阈值
- 阈值比较小的时候：
  如果我们认为打 1 分以上的就是感冒患者，那么只要有一点症状就可以确诊为感冒了，这时候100个人，确诊感冒的可能有 80 人，但是实际呢？可能80个人中只有50个是真感冒的，。如下图
阈值=1 诊断感冒诊断正常合计
真感冒 50 10 60
真正常 30 10 40
合计 80 20 100
- 阈值比较大的时候：
  如果我们认为打 2 分以上的才是感冒患者，这时候100个人，确诊感冒的可能有 20 人，但是实际呢？真正感冒的可是60人，你确诊20个，可能其中还有一个是误诊呢？如下图
阈值=2 诊断感冒诊断正常合计
真感冒 19 41 60
真正常 1 39 40
合计 20 80 100
- 那么我们期望的是阈值不大不小，换句话理解就是，我们希望得到一个使得 诊断感冒/真感冒 趋于 1（如果你感冒了，我们尽量确诊）,诊断感冒/真正常 趋于 0（如果你正常，尽量不误诊）的阈值。在 ROC曲线中我们叫做 真阳率和假阳率
- 所以我们一点点改变阈值，就可以得到一组又一组的 真阳率和假阳率 ，将这一组组 真阳率和假阳率在坐标轴上表示出来，就是我们要的 ROC曲线，通过图形化，我们就可以很直观的取一个合适的阈值了。（这个图只是随便在网上找的，可不是这个列子的图噢，我们大概看下 ROC曲线的样子就好了，哈哈）

阈值=1	诊断感冒	诊断正常	合计
真感冒	50	10	60
真正常	30	10	40
合计	80	20	100

阈值=2	诊断感冒	诊断正常	合计
真感冒	19	41	60
真正常	1	39	40
合计	20	80	100

好了，到这里我们大概就讲了下 ROC曲线的由来：主要就是为了方便我们直观的求一个合适的阈值罢了，并没有什么太高深的东西，值得一提的是，ROC 是从预测为真的角度来看待问题的，所以我们只需要考虑诊断感冒这个方面来计算：诊断感冒正确的 / 真感冒 和 诊断感冒错误的 / 真正常

AUC

定义
1. ROC曲线与横轴围城的曲边形的面积
2. 将所有样本根据算法模型预测的打分进行升序排列，随机挑选一正一负两个样本，负样本排在正样本前面的概率
  只是看文字好像不是很好理解，可以结合上面那个例子来看一看就好理解了，我们跟所有来看病的人都有打分，按照打分给他们排个序，然后随机挑选一个真得感冒和一个真正常的人，看一下是不是真正常的人排在前面，如果是，那么计数为1，进行 N 次实验，所有计数的累计和为 n，那么 n/N 就是AUC的值了，顺便提一下，最理想的情况就是 n = N了，也意味着我们的打分已经完美

定义有两种，但是他们应该如何进行理解互通呢？笔者目前也不是很清楚，尝试推理了下，也不是很明白，这里就不敢班门弄斧了，如果有大佬理解，请不吝赐教！！！非常感谢！！！这里如果有感谢兴趣的朋友，也可以查看下这篇博客，应该是我找到的比较有深度的 auc 的计算了

为什么需要 AUC
前面我们说了 ROC曲线可以用来给一个模型确定阈值，那么 AUC 则是来评判一个二分类的模型的优劣。
如果 AUC = 1:完美预测，基本不会存在的情况。
如果 0.5 < AUC < 1：除了完美预测，那就乘这个区间的最有价值了。
如果 AUC = 0.5：因为是二分类，随机猜测也就是这个概率了，完全就没有价值
如果 AUC < 0.5：比随机猜测的概率还低！！！但是反过来说，非黑即白，如果取个反呢？

总的来说，不考虑最后一种情况，AUC当然是越大越好，如果是最后一致情况，那当然是越小越好，因为我一旦取反，那么就和第一种情况一样啦。

AUC 计算
首先还是这篇博客。

其次，我想说的是，写AUC的博客那么多，为什么没人将工作中的计算方法说上来呢？所以这里我就贴一个工作中计算方式：

首先我们计算AUC肯定得有一份打完分了的数据，假设数据auc.text,内容如下：

计算方法
cat auc.text |sort -k2n|awk '($1==-1){++x;a+=y}($1==1){++y}END{print 1.0-a/(x*y)}'
通过一个简单的 awk 就可以得出来了，至于这个公式得原理，也很简单，就是完全遵循我们定义中的第二种方式得来的，详细的过程我就不啰嗦了，如果有疑问，欢迎留言咨询