混淆矩阵、ROC、AUC

最新推荐文章于 2024-08-19 20:05:05 发布

爱吃烧卖的馒头

最新推荐文章于 2024-08-19 20:05:05 发布

阅读量5.8k

点赞数 2

分类专栏：机器学习文章标签：混淆矩阵 ROC AUC

本文链接：https://blog.csdn.net/gyq423/article/details/82462760

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

主要内容

（1）混淆矩阵（主要指标）

（2）绘制ROC

（3）AUC

（4）多分类

-------------------------------------------------------------------------------------------------------------------------

一、混淆矩阵

样本		预测值
样本		1	0
实际值	1	TP(真正)	FN(假负)
实际值	0	FP(假正)	TN(真负)

TP（真正）True Positive：实际为正，预测为正

FP（假正）False Positive：实际为负，预测为正

FN（假负）False Negative：实际为正，预测为负

TN（真负）True Negative：实际为负，预测为负

主要指标计算（另外还有其余指标）：

真正类率：Sensitive or True Positive Rate（TPR）= TP/(TP+FN)【击中率】

假真类率：Fall-out or False Positive Rate（FPR）= FP/(FP+TN)【错误报警率】

真负类率：TNR = TN/(FP+TN) = 1 - FPR

准确率：Accuracy（ACC） = (TP+TN)/(P+N) = (TP+TN)/(TP+FP+FN+TN)

精确率（就预测结果而言）：Precision = TP/(TP+FP)

召回率（就原来样本而言）：Recall = TP/(TP+FN)

调和平均值 F1 = 2*P*R/(P+R)

二、ROC曲线绘制

ROC曲线（receiver operating characteristic curve），又称为感受性曲线（sensitivity curve），如下图所示。

在一个二分类模型中，对于所得到的连续结果，假设已确定一个阀值，比如说 0.6，大于这个值的实例划归为正类，小于这个值则划到负类中。如果减小阀值，减到0.5，固然能识别出更多的正类，也就是提高了识别出的正例占所有正例的比类，即TPR,但同时也将更多的负实例当作了正实例，即提高了FPR。为了形象化这一变化，在此引入ROC，ROC曲线可以用于评价一个分类器。

（a）ROC曲线上的每一个点对应于一个threshold，对于一个分类器，每个threshold下会有一个TPR和FPR。

比如Threshold最大时，TP=FP=0，对应于原点；Threshold最小时，TN=FN=0，对应于右上角的点(1,1)

（b）随着阈值theta增加，TP和FP都减小，TPR和FPR也减小，ROC点向左下移动；

那么，ROC曲线如何绘制呢？

参照网上一个例子来说

preview

这张表共20个样本，实际数据有10个p（正例），10个n（反例），Score代表正例的概率（通过模型得到，例如RF等），对这个概率进行降序排列，即最可能为正样本的排在前面。但至于这个样本是否是正例，需要将score与分类阈值进行比较，若大于这个阈值，则为正例，反之为反例，接着对混淆矩阵进行计算。

下面共列举3个场景说明如何画出ROC曲线点。

（1）场景一：假设设定的阈值为0.9（即大于或等于0.9，预测为正；小于0.9，预测为负）

下面计算混淆矩阵：对于10个实际为正的，1个预测为正，9个预测为负；对于10个实际为负的，0个预测为正，10个预测为负。混淆矩阵如下：