类偏斜（笔记）

最新推荐文章于 2024-10-17 23:46:41 发布

黃時雨

最新推荐文章于 2024-10-17 23:46:41 发布

阅读量173

点赞数

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/a794450019/article/details/112454294

版权

1 篇文章 0 订阅

订阅专栏

本文为学习机器学习过程中整理的笔记，参考于http://www.ai-start.com/ml2014/

会出现类偏斜的情况

 训练集中有非常多的同一种类的样本，而其他种类的样本只有很少或者没有。

（举例：在1000个人中有5个患者，如果此时预测1000个人中有50个患者，那么即使此时预测没有患病的人数的准确率高达95%（950个人没有患病），但实际上我们所预测的50个患病人数与实际上的5个患病人数仍有很大差距）

通过查准率和召回率可以判断是否出现了类偏斜，且查准率和召回率越高越好

首先将预测结果分为4种情况：

那么，
查准率 = $\frac{TP}{TP+FP}$ （ $\frac{预测为真且实际为真的数量}{预测为真的数量}$ ）

查全率 = $\frac{TP}{TP+FN}$ （ $\frac{预测为真且实际为真的数量}{实际上为真的数量}$ ）

在实际应用中有可能会出现“查准率很高而查全率很低”或者“查准率很低而查全率很高”的情况，因此需要对这两者作一个权衡（不能让其中一方过低，当然两者都越高越好）

设查准率为P，查全率为R，则设一个值为F用于权衡，F = 2 $\frac{PR}{P+R}$ （得到的F越高越好）

关注

专栏目录