分类问题评价指标

目录

模型评估方式

1.验证(Hold-Out)

2.交叉验证(Cross-Validation)

二分类问题

1.混淆矩阵(Confuse Matrix)

2.准确率(Accuracy)

3.精确率(Precision)

4.召回率(Recall)

5.F1-Score

6.P-R曲线(Precision-Recall Curve)

平衡点(BEP)

7.ROC曲线

8.AUC(Area under ROC Curve)

9.对数损失(Log Loss)

10.KS图(Kolomogorov Smirnov chart)

11.增益图和提升图(Gain and Lift charts)

12.马修斯相关系数(MCC)

多分类问题

1.混淆矩阵

2.对数损失


模型评估方式

1.验证(Hold-Out)

使用这种方法时,通常大的数据集会被随机分成三个子集:

训练集:用于构建预测模型。

验证集:用于评估训练阶段所得模型的性能。它为模型参数优化和选择最优模型提供了测试平台。不是所有模型算法都需要验证集。

测试集:用之前未训练的样本评估模型的预测性能。如果模型与训练集拟合的好于测试集,有可能是过拟合所致。

2.交叉验证(Cross-Validation)

当仅有有限数量的数据时,为了对模型性能进行无偏估计,我们可以使用 k 折交叉验证(k-fold cross-validation)。 使用这种方法时,数据被分成 k 份数目相等的子集;构建k次模型,每次留一个子集做测试集,其他用作训练集。如果 k 等于样本大小,这也被称之为留一验证(leave-one-out)。

二分类问题

1.混淆矩阵(Confuse Matrix)

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。

预测正例 预测负例
实际正例

TP (True Positive)

被模型预测为正的正样本

FN (False Negative)

被模型预测为负的正样本

实际负例

FP (False Positive)

被模型预测为正的负样本

TN (True Negative)

被模型预测为负的负样本

T (True) 和 F(False) 评价模型的判断结果是否正确;

P (Positive) 和 N(Negative) 代表模型的判断结果分类器预测的结果。

假正例率(FPR)/ 误诊率( = 1 - 特异度):代表分类器预测的正类中实际负实例占所有负实例的比例。意为有多少负例被错判成了正例。
FPR=\frac{FP}{FP+TN}

真负例率(TNR)/ 特异度(Specificity:代表分类器预测的负类中负实例占所有负实例的比例,TNR=1-FPR。衡量的是所有的负例中有多少是被正确分类了,由于类别不平衡问题中通常关注正例能否正确被识别,Specificity高则FP低,意味着很少将负例错判为正例,即该分类器对正例的判别具有“特异性”,在预测为正例的样本中很少有负例混入。
TNR=\frac{TN}{FP+TN}

假负例率(FNR)/ 漏诊率 (= 1 - 灵敏度):意为有多少正例被错判成了负例。
FNR=\frac{FN}{TP+FN}

阳性似然比 = 真正例率 / 假正例率 = 灵敏度 / (1 - 特异度)

阴性似然比 = 假负例率 / 真负例率 = (1 - 灵敏度)/ 特异度

Youden指数 = 灵敏度 + 特异度 - 1 = 真正例率 - 假正例率

2.准确率(Accuracy)

准确率=预测正确的样本数/所有样本数,即预测正确的样本比例(包括预测正确的正样本和预测正确的负样本)。

Accuracy=\frac{TP+FN}{TP+FP+TN+FN}

Accuracy 能够清晰的判断模型的表现,但有一个严重的缺陷:在正负样本不均衡的情况下,占比大的类别往往会成为影响 Accuracy 的最主要因素,此时的 Accuracy 并不能很好的反映模型的整体情况。

Error=\frac{TN+FP}{TP+FP+TN+FN}=1-Accuracy

3.精确率(Precision)

精确率 / 查准率衡量的是所有被预测为正例的样本中有多少是真正例,是针对

  • 0
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在sklearn中,多分类模型的评价指标包括准确率、混淆矩阵、精确率、召回率、F1-score、支持度等。 首先,准确率是评价多分类模型性能的常用指标之一。它表示模型预测正确的样本占总样本数量的比例。准确率越高,模型的性能越好。 其次,混淆矩阵是多分类模型评价的重要工具。它是一个正方形矩阵,行表示实际类别,列表示预测类别。矩阵的每个元素表示被分为某个类别的样本数量。通过分析混淆矩阵可以得到模型在不同类别上的预测情况。 除了准确率和混淆矩阵之外,精确率和召回率也是常用的多分类模型评价指标之一。精确率表示在所有被预测为某一类别的样本中,实际属于该类别的比例。召回率表示在所有实际属于某一类别的样本中,被正确预测为该类别的比例。 F1-score是综合衡量精确率和召回率的指标,它是二者的调和均值,可以更全面地评估模型的性能。F1-score越高,模型的性能越好。 最后,支持度指标表示每个类别在样本中的出现次数。该指标可以衡量模型对各个类别的预测能力。支持度越高,表示该类别在样本中的比例越大。 在sklearn中,我们可以使用相应的函数或方法计算这些多分类模型评价指标,如准确率可以使用accuracy_score函数,混淆矩阵可以使用confusion_matrix函数,精确率和召回率可以使用classification_report函数,F1-score可以使用f1_score函数,支持度可以使用value_counts方法等。通过这些评价指标,我们可以对多分类模型的性能进行全面的评估和比较。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值