【Machine Learning, Coursera】机器学习Week6 偏斜数据集的处理

本文探讨了在机器学习中处理偏斜数据集的问题,指出分类正确率在数据不平衡时不是有效的评估标准。文章介绍了查准率、召回率以及F1 Score作为衡量指标的重要性,并解释了如何根据业务需求调整阈值来平衡查准率和召回率。通过F1 Score,可以在查准率和召回率之间找到最佳平衡点,从而优化算法性能。
摘要由CSDN通过智能技术生成

ML Week6: Handing Skewed Data


本节内容:

  1. 查准率(precision)和召回率(recall)
  2. F 1 F_1 F1 Score

偏斜类(skewed class)问题:数据集中每一类的数据量严重不均衡

如果数据集为偏斜类,分类正确率不是一个好的指标。比如恶性肿瘤预测问题,假设数据集中有0.5%的患者罹患恶性肿瘤,那么一个错误率为1%的学习算法可能并不是一个好的算法。此外,永远预测肿瘤为良性的算法能达到99.5%的正确率,但这显然是没有意义的。

那么,有没有更好的衡量指标呢?

这种情况下,我们可以采用查准率(precision)和召回率(recall)。

查准率衡量的是在所有预测y=1的样本中,实际上y=1的比例:
p r e c i s i o n = t r u e   p o s i t i v e s n o .   o f   p r e d i c t e d   p o s i t i v e s = t r u e   p o s t r u e   p o s + f a l s e   p o s precision=\frac{true\ positives}{no.\ of\ predicted\ positives}= \frac{true\ pos}{true\ pos+false\ pos} precision=<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值