处理样本不均衡的问题

最新推荐文章于 2022-07-19 16:26:45 发布

姬香

最新推荐文章于 2022-07-19 16:26:45 发布

阅读量1.1k

点赞数 4

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/qq_18310041/article/details/93739335

版权

本文介绍了处理样本不均衡问题的多种方法，包括更换评价指标，如使用召回率、精确率和F-Measure，数据集重采样，如上采样和下采样，选择更适合的分类算法，对模型进行惩罚，将问题转换为异常检测或一分类问题，以及数据合成等。通过这些策略，可以更好地评估和调整模型以适应不平衡的数据集。

摘要由CSDN通过智能技术生成

1.扩大数据集

2.换评价指标

对于样本不均衡的数据来说，用精度来评估模型好坏是存在偏差的，因为它只反映了预测正确的结果如何，不能反映预测错误的情况。用“召回率(Recall）”、“精确率(Precision)”和“综合评价指标（F-Mmeasure）”来评估模型。

3.数据集重采样

上采样（过抽样，增少）：让正反例样本一样多，通常是对较少的数据进行数据生成，让其与较多的数据一样多。如可采用在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法，来生成数据，注意：生成数据仅对训练数据进行生成。

下采样（欠抽样，减多）：让正反例样本一样少，通常是对较多的数据进行随机采样，让其与较少的数据一样少。对于下采样来说，通常的模型训练方式是将下采样的数据进行交叉验证训练模型，注意：需用原始数据集的测试数据进行模型测试。

from imblearn.over_sampling import SMOTE # 过抽样处理库SMOTE
from imblearn.under_sampling import RandomUnderSampler # 欠抽样处理库RandomUnderSam

关注

专栏目录