4.4.2分类模型评判指标（二） - ROC曲线与AUC面积

最新推荐文章于 2022-11-01 20:45:44 发布

进击的橘子猫

最新推荐文章于 2022-11-01 20:45:44 发布

阅读量9k

点赞数 8

分类专栏：数据分析与挖掘框架 R模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031

版权

ROC曲线与AUC是评估分类模型性能的重要工具。ROC曲线越靠近左上角，模型准确度越高；AUC值越大，模型准确度也越高。文章介绍了ROC曲线的计算、解读及其在R中的实现，强调了它们在模型评估中的作用，特别是对于二分类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

ROC曲线与AUC面积均是用来衡量分类型模型准确度的工具。通俗点说，ROC与AUC是用来回答这样的问题的：

分类模型的预测到底准不准确？
我们建出模型的错误率有多大？正确率有多高？
两个不同的分类模型中，哪个更好用？哪个更准确？

一句话概括版本：

ROC是一条线，如果我们选择用ROC曲线评判模型的准确性，那么越靠近左上角的ROC曲线，模型的准确度越高，模型越理想；

AUC是线下面积，如果我们选择用AUC面积评判模型的准确性，那么模型的AUC面积值越大，模型的准确度越高，模型越理想；

数据分析与挖掘体系位置

ROC曲线与AUC面积都是评判模型结果的指标，因此属于模型评估的一部分。此外，ROC曲线与AUC面积均多用于判断分类器（Classifier）的优劣，因此适用于分类型的数据模型，如分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等方法。

在分类型模型评判的指标中，常见的方法有如下三种：

混淆矩阵（也称误差矩阵，Confusion Matrix）
ROC曲线
AUC面积

本篇主要介绍第二与第三种方法，即ROC曲线与AUC面积。

此方法在整个数据分析与挖掘体系中的位置如下图所示。

ROC曲线的定义

ROC曲线全称为受试者工作特征曲线（Receiver Operating Characteristic Curve）。虽然听上去很高端，但是ROC其实非常容易理解。一句话说，ROC就是一张图上的曲线，我们通过曲线的形状来判定模型的好坏。

那么要想了解一个曲线代表什么意思，首先最好搞明白曲线的横轴与纵轴分别代表什么。

下图中显示的是两条ROC曲线，一条蓝色，一条红色。他们分别对应两个不同的模型。我们可以看到，图中横轴写着“False positive rate”，纵轴写着“True positive rate”。

这两个就是ROC曲线绘制的关键：我们通过计算分类模型的“False positive rate”与“True positive rate”值，分别把它们当成横纵轴，就能够绘制出这个模型的ROC曲线。

那么，怎么计算这两个指标呢？

ROC曲线的计算

ROC曲线的横轴与纵轴，与混淆矩阵（Confusion Matrix）有着密切的关系，具体的理解请详见混淆矩阵篇的讲解。这里只是简单回顾一下：

在分类型模型中，以二分类为例，我们的模型结果一般可以视为0/1问题，或者说positive/negative的问题。模型的产出物，不是positive，就是negative。

我们通过样本的采集，能够直接知道真实的情况下，哪些数据结果是positive，哪些结果是negative。同时，我们通过用样本数据跑出分类型模型的结果，也可以知道模型认为这些数据哪些是positive，哪些是negative。

因此，我们就能得到这样四个结果：

真实值是positi

最低0.47元/天解锁文章

进击的橘子猫

博客等级

码龄7年

47
原创

607
点赞

2912
收藏

741
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

数据科学猫：数据预处理之数据分箱(Binning)
n5: 非常好的文章。请问分箱之后怎么处理呢？比如等距分箱，得到 df['等距分箱'] 这个新的列后，怎么处理原始的列，然后可以让模型使用啊? 我看到有人会填充原始列所属的箱号，还有说分箱后一个特征变成了多个特征但我不知道怎么操作，还有说要onehot编码，楼主好人能讲讲吗，可能对大佬是不值一提的小问题，但小白往往就差这最后一下导致整个流程跑不起来，多谢！
数据科学猫：数据预处理之数据分箱(Binning)
小白dong: 最后不显示图像是为什么啊？
3.4.2数据标准化（一） - Z-Score标准化
Flynn1392: CSDN是越来越封闭了
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 或者说，文章里出现的混淆矩阵默认一个前提：以猫为例(猪狗同理)，真猫都会被检测为猫猪狗中的一种，并且检测到的假猫只来自猪或者狗。这里忽略了背景问题：一是真猫没有被识别为猫猪狗，而当作背景漏检了；二是背景区域(非猫猪狗)也可能被检测为猫。所以想问一下：当背景作为一个类，而未被标注时，应该怎样计算ACC？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 请问ACC的定义“分类模型所有判断正确的结果占总观测值的比重”中“观测值”的定义是什么？比如图片中目标检测场景：狗数真实值为10，模型认为有5只狗、2只猫、剩余3只认为不属于已知类别（相当于认为是背景），那这3只计入观测值吗？同理，牛数真实值为10，模型认为有12头牛，其中包含10头牛和2个背景（背景被误检测为牛），那这2个背景计入观测值吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。