ROC曲线与PR曲线对比

1.ROC曲线

T P R = T P P = T P T P + F N TPR = \frac{TP}{P} = \frac{TP}{TP + FN} TPR=PTP=TP+FNTP
F P R = F P N = F P F P + T N FPR = \frac{FP}{N} = \frac{FP}{FP + TN} FPR=NFP=FP+TNFP

ROC曲线的纵坐标为TPR,真正率,其实也是召回率。分母为所有实际正样本。
ROC曲线的纵坐标为FPR,假正率,是预测错误的负样本(实际为负样本,预测成正样本,所以分子是FP)在所有实际负样本中的占比。

ROC曲线作为常见的效果评估曲线,优点主要有:
1.TPR关注所有正样本,FPR关注所有负样本,所以比较适合评估分类器的整体性能。
2.TPR与FPR都不依赖于类别的具体分布,不会随类别分布的改变发生变化。

缺点也比较明显:
1.因为ROC曲线不依赖类别的具体分布,所以有时候反倒会成为缺点。假设负样本N增加了很多,但是曲线却没发生变化,相当于系统内产生了大片的FP样本。在一些最关心正样本预测准确性的场景,这样就会有问题。

2.如果有类别不平衡的情况,负例的数目众多致使FPR的增长不明显,导致ROC曲线呈现一个过分乐观的效果估计。例如在实际的广告这种场景中,N样本远远大于P样本,FP即使增加很多,因为TN的数量太大,FPR的值改变也很小。结果是虽然大量负样本被错判成正样本,在ROC曲线上却无法直观体现出来。(当然在做CTR预估的时候,我们会用降采样等手段降低负样本的数量)

2.PR曲线

PR曲线中的P,指的是precision,一般称为精准率,或者查准率。TPR与FPR,分母针对的都是实际正样本,实际负样本。而precision的计算方法为:
p r e c i s i o n = T P T P + F P precision = \frac{TP}{TP + FP} precision=TP+FPTP

可以看出,precision的分母是所有预测的正样本。

PR曲线的纵坐标,就是Precision,横坐标是Recall,或者说是TPR。

由此可见,PR曲线的两个轴关注的都是正样本。如果是类别不平衡问题,我们关注的又都是正样本,这种情况下,PR曲线要比ROC曲线更好一些。

3.AUC(Area Under the Curve)与计算方法

AUC的含义为:分类器将正样本判断为正例比将负样本判断为正例的概率大的可能性。

所以我们常见的计算AUC的方法为:

1.几何方法。比如在ROC曲线中,ROC曲线下面的面积就是AUC值。
2.假设样本集中,总共有(m+n)个样本,其中正样本m个,负样本n个,则样本对为mn个。正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,累加计数,然后除以(mn)就是AUC的值。

4.F1值

计算公式为:
F 1 = 2 p r e c i s i o n p r e c i s i o n + r e c a l l = 2 T P 2 T P + F N + F P F1 = \frac{2 precision}{ precision + recall} = \frac{2TP}{2TP + FN + FP} F1=precision+recall2precision=2TP+FN+FP2TP

F1值平衡了召回率与查准率,是一个比较平衡的指标。

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
ROC曲线(Receiver Operating Characteristic Curve)和PR曲线Precision-Recall Curve)是在二分类问题中常用的评估模型性能的工具,它们有一些区别和特点。 1. 目标不同: - ROC曲线关注的是真正例率(True Positive Rate,即召回率)与假正例率(False Positive Rate)之间的权衡。ROC曲线展示了在不同阈值下,分类器的敏感性和特异性之间的关系。 - PR曲线则关注的是精确率(Precision)与召回率(Recall)之间的权衡。PR曲线展示了在不同阈值下,分类器的预测准确性和查全率之间的关系。 2. 数据分布不平衡时的表现: - ROC曲线对于数据分布不平衡的情况下相对稳定,因为它使用了假正例率作为横轴,而假正例率不受真实负例数量的影响。 - PR曲线在数据分布不平衡时更能准确地反映分类器的性能,因为它使用了精确率作为纵轴,能够展示在正例中的正确预测比例。 3. 敏感性不同: - ROC曲线能够展示分类器在整个概率范围内的性能,对于不同的阈值都可以进行评估。 - PR曲线则更关注分类器在高概率(高置信度)区域的性能,对于低概率的预测结果较为敏感。 总而言之,ROC曲线主要用于评估分类器的整体性能,特别是在样本不平衡的情况下,而PR曲线则更适用于评估分类器在正例预测方面的性能。根据具体问题和需求,选择合适的曲线进行模型性能评估。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值