ML Week6: Handing Skewed Data
本节内容:
- 查准率(precision)和召回率(recall)
- F 1 F_1 F1 Score
偏斜类(skewed class)问题:数据集中每一类的数据量严重不均衡
如果数据集为偏斜类,分类正确率不是一个好的指标。比如恶性肿瘤预测问题,假设数据集中有0.5%的患者罹患恶性肿瘤,那么一个错误率为1%的学习算法可能并不是一个好的算法。此外,永远预测肿瘤为良性的算法能达到99.5%的正确率,但这显然是没有意义的。
那么,有没有更好的衡量指标呢?
这种情况下,我们可以采用查准率(precision)和召回率(recall)。
查准率衡量的是在所有预测y=1的样本中,实际上y=1的比例:
p r e c i s i o n = t r u e p o s i t i v e s n o . o f p r e d i c t e d p o s i t i v e s = t r u e p o s t r u e p o s + f a l s e p o s precision=\frac{true\ positives}{no.\ of\ predicted\ positives}= \frac{true\ pos}{true\ pos+false\ pos} precision=<