1、在倾斜类上使用分类准确率/或分类误差的问题。
如下面的癌症分类示例,当测试集上只有0.5%的病人是癌症患者时,我们使用训练好的模型可以在测试集上得到99%的准确率(1%的错误率),即模型预测大多数的患者是没有癌症的,明显这种测试结果是不可信的,因为正类的数量太少了,这种正负类示例不均衡的情况称之为倾斜类。
2、倾斜类的误差评估
当某个类的样本数量比较少的时候,我们评估模型就不能再使用分类准确率或者是错误率等指标。这个时候需要使用使用查准率和召回率这两个指标:
查准率的定义: P r e c i s i o n = T r u e p o s i t i v e p r e d i c t e d p o s i t i v e = T r u e p o s T r u e p o s + F a l s e p o s