【Machine Learning, Coursera】机器学习Week6 偏斜数据集的处理

ML Week6: Handing Skewed Data


本节内容:

  1. 查准率(precision)和召回率(recall)
  2. F 1 F_1 F1 Score

偏斜类(skewed class)问题:数据集中每一类的数据量严重不均衡

如果数据集为偏斜类,分类正确率不是一个好的指标。比如恶性肿瘤预测问题,假设数据集中有0.5%的患者罹患恶性肿瘤,那么一个错误率为1%的学习算法可能并不是一个好的算法。此外,永远预测肿瘤为良性的算法能达到99.5%的正确率,但这显然是没有意义的。

那么,有没有更好的衡量指标呢?

这种情况下,我们可以采用查准率(precision)和召回率(recall)。

查准率衡量的是在所有预测y=1的样本中,实际上y=1的比例:
p r e c i s i o n = t r u e   p o s i t i v e s n o .   o f   p r e d i c t e d   p o s i t i v e s = t r u e   p o s t r u e   p o s + f a l s e   p o s precision=\frac{true\ positives}{no.\ of\ predicted\ positives}= \frac{true\ pos}{true\ pos+false\ pos} precision=<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值