我的人工智能之旅——偏斜类问题

最新推荐文章于 2024-03-20 15:33:22 发布

breakloop

最新推荐文章于 2024-03-20 15:33:22 发布

阅读量965

点赞数 2

分类专栏：人工智能机器学习人工智能之旅文章标签：偏斜类查准率召回率

本文链接：https://blog.csdn.net/daihuimaozideren/article/details/83088472

版权

31 篇文章 0 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

13 篇文章 4 订阅

订阅专栏

偏斜类问题

正样本数占样本总数的比例极小时，容易出现偏斜类问题。

例如癌症测试。样本集合中仅有0.5%的癌症样本，99.5%的正常样本。通过某一假设函数后，得到1%为癌症患者，99%为正常样本。虽然总的正确率高达99%，但假设函数并不理想。因为，我们的目的是为了，检测出是否得癌。

这时候，如果将99%的准确率提升至99.2%，无疑是一个较大的提升，虽然，在数值上来看，只有0.2%。

因此，对于偏斜类问题，需要引入两个概念，查准率（precision）和召回率（recall）.

还是癌症检测为例。

预计得癌人数中，真正得癌的人数，占预计得癌人数的比例，为查准率。即 $\frac{A}{A+B}$

预计得癌人数中，真正得癌的人数，占实际得癌人数的比例，为召回率。即 $\frac{A}{A+C}$

查准率和召回率通常是此长彼消的。

比如，我们使用逻辑回归，计算得癌风险，通过比对阀值p，预判是否得癌。高于p为癌症，低于p为正常。

当将p设置为0.9时，预测过于严谨，导致查出癌症的人数减少，准确率提高，即查准率提高。同时，由于过于严谨，导致部分得癌样本未被检出，因此召回率会比较低。

当将p设置为0.1时，结果又会反转。查准率低，召回率高。

如何权衡查准率和召回率呢？

通常采用公式F。假设查准率为m，召回率为n，那么

$F=\frac{2mn}{m+n}$

F值高者，对应的模型更优秀。

例如查准率，召回率都趋近于1，则F趋近于1。

两者趋近于0，则F趋近于0.

关注