《统计学习方法》读书笔记——机器学习常用评价指标

传送门

《统计学习方法》读书笔记——机器学习常用评价指标
《统计学习方法》读书笔记——感知机(原理+代码实现)
《统计学习方法》读书笔记——K近邻法(原理+代码实现)
《统计学习方法》读书笔记——朴素贝叶斯法(公式推导+代码实现)


机器学习常用评价指标

本文介绍机器学习中常见的评价指标,包括准确率、精确率、召回率、 F 1 F_1 F1,后续会添加对其它评估指标的介绍。

一、概念

在二分类问题中,对于一个训练数据集,我们将数据样本分为正类(positive class)与负类(negative class)。因此分类器对样本的预测结果可分为以下四种情况:

  • TP(true positive): 将正类预测为正类的个数,
  • FN(false negative): 将正类预测为负类的个数
  • FP(false positive): 将负类预测为正类的个数
  • TN(true negative): 将负类预测为负类的个数
    则对评估指标的定义如下
  • 精确率(precision): P = T P T P + F P P = \frac{TP}{TP + FP} P=TP+FPTP
  • 召回率(recall): R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP
  • F 1 F_1 F1值,即精确率和召回率的调和均值: 2 F 1 = 1 P + 1 R \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R} F12=P1+R1
  • 准确率(accuracy),即预测正确的结果与样本总数的比值: A c c = T P + T N T P + F N + F P + T N Acc = \frac{TP + TN}{TP + FN + FP + TN } Acc=TP+FN+FP+TNTP+TN

其中在信息检索领域:
精确率(precision)又称查准率: 检 索 出 的 相 关 信 息 量 检 索 出 的 信 息 总 量 \frac{检索出的相关信息量}{检索出的信息总量}
召回率(recall)又称查全率: 检 索 出 的 相 关 信 息 量 系 统 中 的 相 关 信 息 总 量 \frac{检索出的相关信息量}{系统中的相关信息总量}

二、栗子

假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。

  • TP: 将正类预测为正类数 40
  • FN: 将正类预测为负类数 20
  • FP: 将负类预测为正类数 10
  • TN: 将负类预测为负类数 30

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3

后续补充ROC曲线,PR曲线,AUC等其它评价指标。

参考

如何解释召回率与精确率? - Charles Xiao的回答 - 知乎

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值