sklearn 机器学习性能分析指标

分类是机器学习中比较常见的任务,对于分类任务常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、P-R曲线、ROC曲线(Receiver Operating Characteristic Curve)等。

  • 混淆矩阵

sklearn接口:sklearn.metrics.confusion_matrix(y_true, y_pred)

在了解这几个性能指标之前,需要先了解混淆矩阵,混淆矩阵中的P表示Positive,即正例或者阳性,N表示Negative,即负例或者阴性。
在这里插入图片描述
表中FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。
另外,TP+FP=P’表示所有被预测为正的样本数量,同理FN+TN=N’为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。

  • 准确率

sklearn接口:sklearn.metrics.accuracy_score(y_true, y_pred)

准确率是分类正确的样本占总样本个数的比例,即
在这里插入图片描述

其中,ncorrect为被正确分类的样本个数,ntotal为总样本个数。
结合上面的混淆矩阵,公式还可以这样写:
在这里插入图片描述

准确率是分类问题中最简单直观的评价指标,但存在明显的缺陷。比如如果样本中有99%的样本为正样本,那么分类器只需要一直预测为正,就可以得到99%的准确率,但其实际性能是非常低下的。也就是说,当不同类别样本的比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。

  • 精确率

sklearn接口:sklearn.metrics.precision_score(y_true, y_pred)

精确率指模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。计算公式为:
在这里插入图片描述

  • 召回率

sklearn接口:sklearn.metrics.recall_score(y_true, y_pred)

召回率指实际为正的样本中被预测为正的样本所占实际为正的样本的比例。

  • F1 score

sklearn接口:sklearn.metrics.f1_score(y_true, y_pred)

F1 score是精确率和召回率的调和平均值,计算公式为:
在这里插入图片描述

Precision体现了模型对负样本的区分能力,Precision越高,模型对负样本的区分能力越强;Recall体现了模型对正样本的识别能力,Recall越高,模型对正样本的识别能力越强。F1 score是两者的综合,F1 score越高,说明模型越稳健。

  • P-R曲线

sklearn接口:sklearn.metrics.precision_recall_curve(y_true, y_pred)

评价一个模型的好坏,不能仅靠精确率或者召回率,最好构建多组精确率Precision和召回率Recall,绘制出模型的P-R曲线。
下面说一下P-R曲线的绘制方法。P-R曲线的横轴是召回率,纵轴是精确率。P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表当阈值最大时模型的精确率和召回率。

  • 根据P-R曲线比较学习器性能

a.若一个学习器的

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值