详解分类指标Precision,Recall,F1-Score

在使用机器学习算法的过程中,我们需要对建立的模型进行评估来辨别模型的优劣,下文中主要介绍常见的几种评估指标。以下指标都是对分类问题的评估指标。

在二分类任务中,假设只有正类(1)和负类(0)两个类别,True(1)和False(0)分别表示预测结果对或错;Positive(1)和Negative(0)表示预测为正类或负类。

将标有正负例的数据集喂给模型后,一般能够得到下面四种情况,可以用混淆矩阵来表示:

  • True Positive (TP):模型将正实例判定为正类。(预测正确,预测类别为正类)
  • True Negative (TN):模型将负实例判定位负类。(预测正确,预测类别为负类)
  • False Negative (FN):模型将正实例判定为负类。(预测错误,预测类别为负类)
  • False Positive (FP) :模型将负实例判定位正类。(预测错误,预测类别为正类)

这里:True/False代表判断结果是否正确,Positive/Negative代表预测类别结果。

1. Precision(精度)

Precision(精度):针对判定结果而言,预测为正类的样本(TP+FP)中真正是正实例(TP)所占的比率。

Precision = 被正确预测的Positive样本 / 被预测为Positive的样本总数

Precision(精度)又称为查准率。Precision越高越好,越高意味着模型对“预测为正”的判断越可信。

2. Recall(召回率)

Recall(召回率):针对样本而言,被正确判定的正实例(TP)在总的正实例中(TP+FN)所占的比率。

Recall = 被正确预测的Positive样本 / 实际为Positive的样本总数

Recall(召回率)又称为查全率。Recall同样越高越好,越高意味着模型对“实际为正”的样本误判越少,漏判的概率越低。

注意: 精度和召回率虽然没有必然的关系,然而在大规模数据集合中,这两个指标却是相互制约的。一般情况下,召回率高时,精度低;精度高时,召回率低。

3. F1-Score

F1-Score:是精度(Precision)和召回率(Recall)的加权调和平均

F1-Score值越接近1,则模型在查全率与查准率两方面的综合表现越好。而Precision或Recall中,一旦有一项非常拉跨(接近于0),F值就会很低。

4. Accuracy(准确率)

Accuracy(准确率):模型正确分类的样本数(正实例被判定为正类,负实例被判定为负例)在总样本中的比重。

Accuracy = 被正确预测的样本数 / 样本总数

Accuracy(准确率)vs. Precision(精度)

模型A假设现有模型A对中国人的“恶性肿瘤发病率”进行预测,预测的准确率(Accuracy)为99.7%。请问这个模型效果如何?是否可用?
答:很难说。因为仅通过准确率,我们不知道假正(FP)和假负(FN)的样本量有多少,以及占比如何。实际上,2017年,全国恶性肿瘤发病率为0.3%。我们只要猜测所有中国人都不会患病,就可以达到99.7%的准确率。但这个预测,对于我们而言,并没有带来任何的增量信息。

  • Accuracy(准确率)从全部数据的角度去计算分类正确的样本数所占的比例,是对分类器整体上的正确率的评价。当数据中存在类别不均衡等问题时,使用准确率无法得出具有信息量的判断结果。

  • 而Precision(精度)在分类中对应的是某个类别(分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量)。Precision是分类器预测为某一个类别的正确率的评价。

5. P-R 曲线

P-R Curve(全准曲线):是由P值与R值构成的曲线。将模型不同参数对应的(R值,P值)绘制成曲线,就得到了全准曲线。

在这里插入图片描述

6. TPR、FPR

上面讲了这么多评价指标,我们发现一个问题:目前的评价体系当中,并没有用上所有的可用信息。上述指标中,考虑了P值和R值,但是都没有考虑TN(True Negative)样本的影响。

那么,有没有什么度量可以考虑到整个混沌矩阵的信息呢?

这里,可以引入真正率(True Positive Rate)和假正率(False Positive Rate)两个指标来解决上述信息缺失的问题。

6.1 TPR(真正率)

TPR(True Positive Rate,真正率):统计“实际为正的样本”中,有多少预测是正确的。

“真正率”就是“查准率”,只不过对同一个事物,有两个不同的称呼。真正率越高越好,越高意味着模型对“正样本”的误判越少。

6.2 FPR(假正率)

FPR(False Positive Rate,假正率):统计“实际为负的样本”中,有多少预测是错误的。

假正率越低越好,越低意味着模型对“负样本”的误判越少。

TPR和FPR有一个好处:不会受样本的均衡程度的影响。
TPR和FPR的条件概率都是基于真实样本的,而且TPR只基于正样本,而FPR只基于负样本。这就使得TPR和FPR不会受样本均衡程度的影响。
而ROC曲线与AUC面积,就是在TPR和FPR的基础上衍生出来的概念。

7. ROC曲线

ROC曲线(Receiver Operating Characteristic Curve),是以假正率(FPR)为横轴,真正率(TPR)为纵轴所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线在测试集中的正负样本的分布变化时,能够保持不变。

在整个ROC曲线上,约靠近左上角(0,1)的点,对应的模型参数越好。

ROC曲线上的每个点对是在某个阈值threshold下得到的(FPR, TPR)。设定一个阈值,大于这个阈值的实例被划分为正实例,小于这个值的实例则被划分为负实例,运行模型,得出结果,计算FPR和TPR值,更换阈值,循环操作,就得到不同阈值下的(FPR, TPR)对,即能绘制成ROC曲线。

8. AUC曲线

AUC曲线(Area Under Curve)是ROC曲线下的面积值,在0.5到1.0区间内。之所以使用AUC值作为评价标准是因为很多时候并不能从ROC曲线中判别模型的好坏,AUC值能量化模型的性能效果。AUC值越接近于1,说明模型性能越好,模型预测的准确率越高;如果多个模型进行性能比较,一般以AUC值大的模型比AUC值小的模型的性能好。

当AUC等于0.5时,整个模型等价于一个随机分类器。AUC的面积越大,模型的整体表现越好。

参考资料

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: precisionrecallf1-score和support是机器学习中常用的评估指标。 其中,precision(精确率)指的是模型预测为正例的样本中,真正为正例的比例;recall(召回率)指的是真正为正例的样本中,被模型预测为正例的比例;f1-scoreF1值)是precisionrecall的调和平均数,用于综合评估模型的性能;support(支持数)指的是每个类别在数据集中出现的次数。 在分类问题中,precisionrecallf1-score都是用来评估模型的分类准确性的指标,而support则是用来衡量每个类别的样本数量。 ### 回答2: precisionrecallf1-score和support是机器学习中对分类模型性能评价的重要指标Precision(精确率)是指预测为正样本的样本中有多少是真正的正样本。它的计算公式为:Precision = 真正的正样本数 / 预测为正样本的样本数。Precision越高,说明模型预测的正样本越准确。 Recall(召回率)是指所有真正的正样本中,模型预测出了多少个正样本。它的计算公式为:Recall = 真正的正样本数 / 所有真正的正样本数。Recall越高,说明模型能够识别到更多的正样本。 F1-scoreF1指标)是精确率和召回率的调和平均值。它的计算公式为:F1-score = 2 * Precision * Recall / (Precision + Recall)。F1-score综合考虑了模型的精确率和召回率,是一个更全面的评价模型分类性能的指标。 Support是指每个类别在测试集中出现的频率(数量)。这个指标主要是为了在多分类任务中,评价每个类别的影响力大小。 在实际应用中,需要综合考虑PrecisionRecallF1-score来评价一个分类模型的准确性和召回能力。比如,在医学领域中,如果一个肿瘤预测模型的Recall很高,说明模型能够预测出更多的真实患者,但如果Precision很低,就会出现很多误诊的情况。此时,我们可以将F1-score作为综合评价指标,考虑模型的精确率和召回率的平衡。 ### 回答3: 这四个指标是评估分类模型性能的重要指标,通常会和混淆矩阵一起使用来评价模型的表现。 Precision(精确率):是指模型在预测为正例中有多少是真正的正例,也可以说是真正例占全部预测为正例的比例。该指标越高,表示模型判断为正例的数据越有可能是真正的正例。 Recall(召回率):是指模型在所有真正实际为正例的样本中,能够被模型正确预测为正例的比例。该指标越高,表示模型能够更好地找到真正的正例。 F1-score:是指精确率和召回率的综合指标,是两者的调和平均数。该指标可以更全面地反映模型的准确率和遗漏率,适用于数据不平衡的情况。 Support(支持度):是指数据集中属于某个类别的样本数量,与其他指标不同的是,该指标没有考虑模型的预测结果,只是对数据集的分布做出了描述。 在实际应用中,选择哪个指标作为评价标准取决于具体任务的需求以及数据分布的特点。例如,在银行反欺诈领域,由于正例较少,需要更关注召回率以避免错过异常交易,而将精确率作为优化目标可能会导致将正常交易误判。因此,在不同场景下需要合理选择评价指标,并综合考虑多个指标综合评估模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值