机器学习基础概念:查准率、查全率、ROC、混淆矩阵、F1-Score 机器学习实战:分类器

本文详细介绍了机器学习中评估分类器性能的关键指标,包括查准率、查全率、F1-Score、ROC曲线和混淆矩阵。通过实例展示了如何计算这些指标,并探讨了在不同场景下选择不同评价标准的重要性。文章还训练了一个随机森林分类器,计算了ROC和ROC AUC分数,以此来评估模型的性能。
摘要由CSDN通过智能技术生成

查准率、查全率

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例TP、假正例FP、真反例TN、假反例FN四种,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数,分类结果的“混淆矩阵”为:
在这里插入图片描述

查准率P:
p = T P T P + F P p=\frac{TP}{TP+FP} p=TP+FPTP
查全率R:
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的是学习器认为“最不可能”是正例的样本,按此顺序逐个将样本作为正例进行预测,则每次都可以计算出当前的查全率、查准率。以查准率为纵轴,查全率为横轴作图就得到了“P-R曲线”,下面给出P-R曲线与平衡点的示意图:
在这里插入图片描述
还能根据P-R曲线判断学习器的性能优劣,一般用P-R曲线在坐标中的面积来比较,但是计算过程还是比较麻烦的。

F1-Score、ROC、混淆矩阵

混淆矩阵:在机器学习领域和统计分类问题中,混淆矩阵(英语:confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一列代表一个类的实例预测,而每一行表示一个实际的类的实例。之所以如此命名,是因为通过这个矩阵可以方便地看出机器是否将两个不同的类混淆了(比如说把一个类错当成了另一个)。混淆矩阵(也称误差矩阵)是一种特殊的, 具有两个维度的(实际和预测)列联表,并且两维度中都有着一样的类别的集合
F1-Score:F1是基于查准率和查全率的调和平均定义的:
1 F 1 = 1 2 ( 1 P + 1 R ) \frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R}) F11=21(

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值