机器学习中的AUC理解

最新推荐文章于 2024-07-16 11:57:51 发布

搜索与推荐Wiki

最新推荐文章于 2024-07-16 11:57:51 发布

阅读量5.6k

点赞数 3

分类专栏： # 机器学习文章标签： AUC 机器学习

本文链接：https://blog.csdn.net/Gamer_gyt/article/details/79945987

版权

机器学习专栏收录该内容

47 篇文章 20 订阅

订阅专栏

转载请注明出处：http://blog.csdn.net/gamer_gyt
博主微博：http://weibo.com/234654758
Github：https://github.com/thinkgamer
公众号：搜索与推荐Wiki

个人网站：http://thinkgamer.github.io

最近在做GBDT模型，里边用到胡模型评价方法就是AUC，刚好趁此机会，好好学习一下。

混淆矩阵(Confusion matrix)

混淆矩阵是理解大多数评价指标的基础，毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念，下边用一个实例讲解什么是混淆矩阵

如有100个样本数据，这些数据分成2类，每类50个。分类结束后得到的混淆矩阵为：
这里写图片描述

说明：
40个为0类别的，预测正确，60个事实是0类别的给预测为1类别的
40个为1类别的，预测正确，60个事实是1类别的给预测为0类别的

其对应的混淆矩阵如下：
这里写图片描述

混淆矩阵包含四部分的信息：

True negative(TN)，称为真阴率，表明实际是负样本预测成负样本的样本数
False positive(FP)，称为假阳率，表明实际是负样本预测成正样本的样本数
False negative(FN)，称为假阴率，表明实际是正样本预测成负样本的样本数
True positive(TP)，称为真阳率，表明实际是正样本预测成正样本的样本数

从上边的图可以分析出，对角线带True的为判断对了，斜对角线带False的为判断错了。

像常见的准确率，精准率，召回率，F1-score，AUC都是建立在混淆矩阵上的。

准确率（Accuracy）：判断正确的占总的数目的比例【（TN+TP）/100=(40+40)/100=0.8】
精准率（precision）：判断正确的正类占进行判断的数目的比例（针对判别结果而言的，表示预测为正的数据中有多少是真的正确）【TP/(TP+FP) = 40/(40+60 )=0.4】
召回率（recall）: 判断正确正类占应该应该判断正确的正类的比例（针对原样本而言，表示样本中的正例有多少被判断正确了）【TP/(TP+FN)=40/(40+60)=0.4】
F1-Measure：精确值和召回率的调和均值【2RR/(P+R)=20.40.4/(0.4+0.4)=1】

AUC & ROC

AUC是一个模型评价指标，只能用于二分类模型的评价，对于二分类模型，还有损失函数（logloss），正确率（accuracy），准确率（precision），但相比之下AUC和logloss要比accuracy和precision用的多，原因是因为很多的机器学习模型计算结果都是概率的形式，那么对于概率而言，我们就需要去设定一个阈值来判定分类，那么这个阈值的设定就会对我们的正确率和准确率造成一定成都的影响。

AUC(Area under Curve)，表面上意思是曲线下边的面积，这么这条曲线是什么？——ROC曲线（receiver operating characteristic curve，接收者操作特征曲线）。

接下来分析下面这张图（图片来自百度百科）：
这里写图片描述

X轴是假阳率：FP/(FP+TN)
Y轴是真阳性：TP(TP+FN)
ROC曲线给出的是当阈值(分类器必须提供每个样例被判为阳性或者阴性的可信程度值)变化时假阳率和真阳率的变化情况，左下角的点所对应的是将所有样例判为反例的情况，而右上角的点对应的则是将所有样例判断为正例的情况。
ROC曲线不但可以用于比较分类器，还可以基于成本效益分析来做出决策。在理想情况下，最佳的分类器应该尽可能地处于左上角，这就意味着分类器在假阳率很低的同时获得了很高的真阳率。

AUC计算

以下部分引用 ROC曲线与AUC计算中的举例

假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。
然后在这6次展示的时候都通过model算出了点击的概率序列。

下面看三种情况。

一、如果概率的序列是（1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4）。与原来的序列一起，得到序列（从概率从高到低排）
1 0.9
1 0.8
0 0.7
0 0.6
0 0.5
0 0.4
绘制的步骤是：
1）把概率序列从高到低排序，得到顺序（1:0.9,3:0.8,2:0.7,4:0.6,5:0.5,6:0.4）；
2）从概率最大开始取一个点作为正类，取到点1，计算得到TPR=0.5，FPR=0.0；
3）从概率最大开始，再取一个点作为正类，取到点3，计算得到TPR=1.0，FPR=0.0；
4）再从最大开始取一个点作为正类，取到点2，计算得到TPR=1.0，FPR=0.25;
5）以此类推，得到6对TPR和FPR。
然后把这6对数据组成6个点(0,0.5),(0,1.0),(0.25,1),(0.5,1),(0.75,1),(1.0,1.0)。
这6个点在二维坐标系中能绘出来。
这里写图片描述
看看图中，那个就是ROC曲线。

二、如果概率的序列是（1:0.9,2:0.8,3:0.7,4:0.6,5:0.5,6:0.4）。与原来的序列一起，得到序列（从概率从高到低排）
1 0.9
0 0.8
1 0.7
0 0.6
0 0.5
0 0.4
绘制的步骤是：
6）把概率序列从高到低排序，得到顺序（1:0.9,2:0.8,3:0.7,4:0.6,5:0.5,6:0.4）；
7）从概率最大开始取一个点作为正类，取到点1，计算得到TPR=0.5，FPR=0.0；
8）从概率最大开始，再取一个点作为正类，取到点2，计算得到TPR=0.5，FPR=0.25；
9）再从最大开始取一个点作为正类，取到点3，计算得到TPR=1.0，FPR=0.25;
10）以此类推，得到6对TPR和FPR。
然后把这6对数据组成6个点(0,0.5),(0.25,0.5),(0.25,1),(0.5,1),(0.75,1),(1.0,1.0)。
这6个点在二维坐标系中能绘出来。
这里写图片描述
看看图中，那个就是ROC曲线。

三、如果概率的序列是（1:0.4,2:0.6,3:0.5,4:0.7,5:0.8,6:0.9）。与原来的序列一起，得到序列（从概率从高到低排）
0 0.9
0 0.8
0 0.7
0 0.6
1 0.5
1 0.4
绘制的步骤是：
11）把概率序列从高到低排序，得到顺序（1:0.4,2:0.6,3:0.5,4:0.7,5:0.8,6:0.9）；
12）从概率最大开始取一个点作为正类，取到点6，计算得到TPR=0.0，FPR=0.25；
13）从概率最大开始，再取一个点作为正类，取到点5，计算得到TPR=0.0，FPR=0.5；
14）再从最大开始取一个点作为正类，取到点4，计算得到TPR=0.0，FPR=0.75;
15）以此类推，得到6对TPR和FPR。
然后把这6对数据组成6个点(0.25,0.0),(0.5,0.0),(0.75,0.0),(1.0,0.0),(1.0,0.5),(1.0,1.0)。
这6个点在二维坐标系中能绘出来。
这里写图片描述
看看图中，那个就是ROC曲线