机器学习——样本不均衡的处理方式

最新推荐文章于 2024-07-14 10:32:39 发布

Muzi_Water

最新推荐文章于 2024-07-14 10:32:39 发布

阅读量2k

点赞数

分类专栏：机器学习机器学习-分类

本文链接：https://blog.csdn.net/Muzi_Water/article/details/85938320

版权

版权声明：本文为博主辛苦码出来滴~，才疏学浅，如有不对尽请指正，未经博主允许不得转载。

本片博文主要是对机器学习的分类问题中存在的样本不均衡情况的处理说明，具体如下：
当对数据进行分类训练的时候，有时候会出现原始数据样本不均衡的情况，也就是正例与反例样本数量存在差异。此时为了能够更好的训练模型，需要对原始数据进行“过采样”或“下采样”来使得训练数据分布均衡。建议采用过采样
过采样：让正反例样本一样多，通常是对较少的数据进行数据生成，让其与较多的数据一样多。如可采用SMOTE样本生成策略生成数据，注意：生成数据仅对训练数据进行生成。
在这里插入图片描述
下采样：让正反例样本一样少，通常是对较多的数据进行随机采样，让其与较少的数据一样少。对于下采样来说，通常的模型训练方式是将下采样的数据进行交叉验证训练模型，注意：需用原始数据集的测试数据进行模型测试。

对于样本不均衡的数据来说，用精度来评估模型好坏是存在偏差的，因为它只反映了预测正确的结果如何，不能反映预测错误的情况，对于错误分类来说又分为过检和漏检。

例如：对于商品检测来说，如果我们的目的是检测次品（正例）的商品，那么此时的过检即本来是正品预测为次品，漏检即本来是次品预测为正品。

	预测为反例	预测为正例
反例(Negatiave)	TN	FP
正例(Positive)	FN	TP

在这里插入图片描述
如果预测结果全为正品，则准确率为99%，此时的准确率

最低0.47元/天解锁文章

Muzi_Water

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习——样本不均衡的处理方式

本片博文主要是对机器学习的分类问题中存在的样本不均衡情况的处理说明，具体如下：当对数据进行分类训练的时候，有时候会出现原始数据样本不均衡的情况，也就是正例与反例样本数量存在差异。此时为了能够更好的训练模型，需要对原始数据进行“过采样”或“下采样”来使得训练数据分布均衡。过采样：让正反例样本一样多，通常是对较少的数据进行数据生成，让其与较多的数据一样多。下采样：让正反例样本一样少，通常是对较多...
复制链接

扫一扫

专栏目录