机器学习(21)---召回率(recall)、精度(precision)和准确率(accuracy)


1. 分布不平衡的数据集

 1. 精度(precision)和召回率(recall)是衡量机器学习模型性能的重要指标,特别是数据集分布不平衡的案例中。

 2. 不平衡数据集广泛存在于各种分类问题中,包括二分类和多分类问题。以下是一个简单的二分类问题的例子:假设有100个样本,其中80个样本被标记为类别1,其余20个样本被标记为类别2。这个数据集就是不平衡数据集,类别1和类别2的样本数量之比为4:1。另一个不平衡分类问题出现在当疾病在公众中的发病率很低时的疾病监测。

2. TP、TN 、FP 、FN

 我们检查身体的时候,经常会听到检测结果呈"真阳性"、"假阴性"等说法。

  • “真”、"假"说的是检查结果的对错。”真“意味着检测结果是正确的,"假"意味着检测结果是错误的。
  • “阳性”、"阴性"说的是此次的检查结果。阳性,意味检测出了预定的目标。阴性,意味着没查出预定的目标。
检测结果英文术语含义
真阳性True Positive正确地检测到阳性结果:即检测结果正确,并且结果呈现阳性
假阳性False Positive错误地检测到阳性结果:即检测结果错误,并且结果呈现阳性
真阴性True Negative正确地检测到阴性结果:即检测结果正确,并且结果呈现阴性
假阴性False Negative错误地检测到阴性结果:即检测结果错误,并且结果呈现阴性

3. 混淆矩阵

 1. 混淆矩阵是机器学习领域中用于精度评价的一种标准格式,也被称为误差矩阵。混淆矩阵的每一行代表一个真实的标签,每一列代表一个预测的标签。矩阵的对角线元素表示模型正确分类的实例数,非对角线元素则表示模型错误分类的实例数。

 2.(1)TP+FP+TN+FN:样本总数。(2)TP+FN:实际正样本数。(3)TP+FP:预测结果为正样本的总数,包括预测正确的和错误的。(4)FP+TN:实际负样本数。(5)TN+FN:预测结果为负样本的总数,包括预测正确的和错误的。

在这里插入图片描述

4. 各自的计算公式

 1. 准确率(accuracy)就是在全部预测中,正确预测结果所占的比例。计算公式为:

在这里插入图片描述
 2. 精度(precision),也叫查准率,就是在全部阳性预测中,正确预测结果所占的比例。比如,你预报了10次下雨,结果只下了3次,你的预报的精度就是 0.3,因为 TP = 3 , FP = 7。计算公式为:

在这里插入图片描述
 3. 召回率(recall),也叫查全率,就是在全部阳性事件中,正确预测结果所占的比例。比如,下了10次雨,结果你只正确预报了2次,你的预报的召回率就是 0.2,因为 TP = 2 , FN = 8 , P = 10。计算公式为:

在这里插入图片描述

5. 例题应用

下面图片中的红色叉表示真实情况中的正例,蓝色圆圈表示真实情况中的反例。

1、答案:5、3、0、2、0.625、1.00

在这里插入图片描述
2、答案:4、2、1、3、0.67、0.80

在这里插入图片描述
3、答案:3、0、2、5、1.00、0.60

在这里插入图片描述
4、答案:0.60、0.60、0.60

在这里插入图片描述


觉得写的不错的点个赞吧!

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冒冒菜菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值