偏斜类问题
正样本数占样本总数的比例极小时,容易出现偏斜类问题。
例如癌症测试。样本集合中仅有0.5%的癌症样本,99.5%的正常样本。通过某一假设函数后,得到1%为癌症患者,99%为正常样本。虽然总的正确率高达99%,但假设函数并不理想。因为,我们的目的是为了,检测出是否得癌。
这时候,如果将99%的准确率提升至99.2%,无疑是一个较大的提升,虽然,在数值上来看,只有0.2%。
因此,对于偏斜类问题,需要引入两个概念,查准率(precision)和召回率(recall).
查准率&召回率
还是癌症检测为例。
实际标签(1代表得癌) | |||
1 | 0 | ||
预计标签(1代表得癌) | 1 | A | B |
0 | C | D |
预计得癌人数中,真正得癌的人数,占预计得癌人数的比例,为查准率。即
预计得癌人数中,真正得癌的人数,占实际得癌人数的比例,为召回率。即
查准率和召回率通常是此长彼消的。
比如,我们使用逻辑回归,计算得癌风险,通过比对阀值p,预判是否得癌。高于p为癌症,低于p为正常。
当将p设置为0.9时,预测过于严谨,导致查出癌症的人数减少,准确率提高,即查准率提高。同时,由于过于严谨,导致部分得癌样本未被检出,因此召回率会比较低。
当将p设置为0.1时,结果又会反转。查准率低,召回率高。
如何权衡查准率和召回率呢?
权衡公式F
通常采用公式F。假设查准率为m,召回率为n,那么
F值高者,对应的模型更优秀。
例如查准率,召回率都趋近于1,则F趋近于1。
两者趋近于0,则F趋近于0.