正样本、负样本、ROC、AUC、CI

马鹏森

已于 2024-03-11 13:31:02 修改

阅读量1.7k

点赞数 2

分类专栏：机器学习基础文章标签：人工智能

于 2023-10-09 10:32:35 首次发布

本文链接：https://blog.csdn.net/weixin_43135178/article/details/133696264

版权

机器学习基础专栏收录该内容

189 篇文章 97 订阅

订阅专栏

正样本、负样本与 ROC、AUC之间的关系：

正样本和负样本构成了分类问题的基础，ROC 曲线和 AUC 是用于评估二分类模型性能的工具。ROC 曲线通过不同的阈值来评估模型的性能，而 AUC 是对整个 ROC 曲线性能的一个综合度量（AUC 是 ROC 曲线下方的面积），ROC、AUC、越大，模型性能越好，表示模型在分类问题中的能力越强。

AUC和ROC不是一个图，它们是两个图。

1、正样本、负样本

正样本和负样本通常与二分类问题相关联

正样本：与真值对应的目标类别来说该样本为正样本。 （正样本是在二分类问题中我们要寻找的目标类别）

负样本：与真值不对应的其他所有目标类别来说该样本为负样本。（负样本是不属于目标类别的类别）

例如：图片二分类任务（比如判断1张图片是否为猫）。

如果样本对应的标签为1，则该样本为正样本（positive sample）。

如果样本对应的标签为0，则该样本为负样本（negative sample）。

2、ROC、AUC

前置知识：

True Positive（TP）：真正类。样本的真实类别是正类，并且模型识别的结果也是正类。

False Negative（FN）：假负类。样本的真实类别是正类，但是模型将其识别为负类。

False Positive（FP）：假正类。样本的真实类别是负类，但是模型将其识别为正类。

True Negative（TN）：真负类。样本的真实类别是负类，并且模型将其识别为负类。

2.1、ROC 曲线：

ROC 曲线是一种图形化工具，用于评估二分类模型的性能。它绘制了不同阈值下的真正例率（True Positive Rate，TPR，也称为召回率或灵敏度）与假正例率（False Positive Rate，FPR）之间的关系。ROC 曲线是一条从左下角到右上角的曲线，它的横轴是 FPR，纵轴是 TPR。ROC 曲线上的点代表了在不同阈值下模型的性能表现。

2.1.1、真阳性率 (True Positive Rate, TPR)：

真阳性率（True Positive Rate，TPR）通常也被称为敏感性（Sensitivity）或召回率（Recall）。它是指分类器正确识别正例的能力。真阳性率可以理解为所有阳性群体中被检测出来的比率(1-漏诊率)，因此TPR越接近1越好。它的计算公式如下：

2.1.2、假阳性率 (False Positive Rate, FPR)：

假阳性率（False Positive Rate，FPR）是指在所有实际为负例的样本中，模型错误地预测为正例的样本比例。假阳性率可以理解为所有阴性群体中被检测出来阳性的比率(误诊率)，因此FPR越接近0越好。它的计算公式如下：

2.2、AUC（曲线下面积）：

AUC 是 ROC 曲线下面积的度量，它表示 ROC 曲线下的面积大小。AUC 的取值范围通常在 0.0 到 1.0 之间。AUC 越接近 1.0，表示模型性能越好，因为它意味着在各种阈值下，模型的 TPR 相对于 FPR 都更高。AUC 值越低则表示模型性能越差，因为模型不能有效地区分正样本和负样本。

3、CI

例如下图右上角的CI值

CI表示置信区间，是一个概率区间，用于表示统计参数（如均值、比例或AUC本身）的估计值的不确定性。例如，一个95%的CI表示如果我们从相同的总体中重复样本抽取100次，那么大约95次，这个参数的真实值将落在置信区间内。它是一种表达结果可信度的方法。

制作方法：

在统计学和机器学习中，计算一个模型的AUC值的置信区间（CI）通常涉及到一些形式的抽样技术，如自助抽样（bootstrapping）。

一文详解ROC曲线和AUC值 - 知乎

马鹏森

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
正样本、负样本、ROC、AUC、CI

它绘制了不同阈值下的真正例率（True Positive Rate，TPR，也称为召回率或灵敏度）与假正例率（False Positive Rate，FPR）之间的关系。：ROC 曲线以正样本和负样本的真正例率（TPR）和假正例率（FPR）为基础，通过不同的阈值来计算这些值，进而绘制出曲线。综上所述，正样本和负样本构成了分类问题的基础，ROC 曲线和 AUC 是用于评估二分类模型性能的工具。ROC 曲线通过不同的阈值来评估模型的性能，而 AUC 是对整个 ROC 曲线性能的一个综合度量。
复制链接

扫一扫