正样本、负样本、ROC、AUC、CI

正样本、负样本 与 ROC、AUC之间的关系:

正样本和负样本构成了分类问题的基础,ROC 曲线和 AUC 是用于评估二分类模型性能的工具。ROC 曲线通过不同的阈值来评估模型的性能,而 AUC 是对整个 ROC 曲线性能的一个综合度量(AUC 是 ROC 曲线下方的面积),ROC、AUC、越大,模型性能越好,表示模型在分类问题中的能力越强。

AUC和ROC不是一个图,它们是两个图。


1、正样本、负样本

正样本和负样本通常与二分类问题相关联

正样本: 与真值对应的目标类别来说该样本为正样本。 (正样本是在二分类问题中我们要寻找的目标类别

负样本: 与真值不对应的其他所有目标类别来说该样本为负样本。(负样本是不属于目标类别的类别

例如:图片二分类任务(比如判断1张图片是否为猫)。

如果样本对应的标签为1,则该样本为正样本(positive sample)

如果样本对应的标签为0,则该样本为负样本(negative sample)

2、ROC、AUC

前置知识:

 True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类。

 False Negative(FN):假负类。样本的真实类别是正类,但是模型将其识别为负类。

 False Positive(FP):假正类。样本的真实类别是负类,但是模型将其识别为正类。

 True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。 

2.1、ROC 曲线

ROC 曲线是一种图形化工具,用于评估二分类模型的性能。它绘制了不同阈值下的真正例率(True Positive Rate,TPR,也称为召回率或灵敏度)与假正例率(False Positive Rate,FPR)之间的关系。ROC 曲线是一条从左下角到右上角的曲线,它的横轴是 FPR,纵轴是 TPR。ROC 曲线上的点代表了在不同阈值下模型的性能表现。

2.1.1、真阳性率 (True Positive Rate, TPR):

真阳性率(True Positive Rate,TPR)通常也被称为敏感性(Sensitivity)或召回率(Recall)。它是指分类器正确识别正例的能力。真阳性率可以理解为所有阳性群体中被检测出来的比率(1-漏诊率),因此TPR越接近1越好。它的计算公式如下:

2.1.2、假阳性率 (False Positive Rate, FPR):

假阳性率(False Positive Rate,FPR)是指在所有实际为负例的样本中,模型错误地预测为正例的样本比例。假阳性率可以理解为所有阴性群体中被检测出来阳性的比率(误诊率),因此FPR越接近0越好。它的计算公式如下:

2.2、AUC(曲线下面积)

AUC 是 ROC 曲线下面积的度量,它表示 ROC 曲线下的面积大小。AUC 的取值范围通常在 0.0 到 1.0 之间。AUC 越接近 1.0,表示模型性能越好,因为它意味着在各种阈值下,模型的 TPR 相对于 FPR 都更高。AUC 值越低则表示模型性能越差,因为模型不能有效地区分正样本和负样本。

3、CI

例如下图右上角的CI值

CI表示置信区间,是一个概率区间,用于表示统计参数(如均值、比例或AUC本身)的估计值的不确定性。例如,一个95%的CI表示如果我们从相同的总体中重复样本抽取100次,那么大约95次,这个参数的真实值将落在置信区间内。它是一种表达结果可信度的方法。

制作方法:

在统计学和机器学习中,计算一个模型的AUC值的置信区间(CI)通常涉及到一些形式的抽样技术,如自助抽样(bootstrapping)。

一文详解ROC曲线和AUC值 - 知乎

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马鹏森

太谢谢了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值