机器学习中数据不均衡问题(分类类别数据不均匀)

数据不均衡问题可能导致机器学习模型偏向多数类别,本文介绍了处理不平衡数据集的方法,包括重采样技术如随机下采样、过采样、基于聚类的过采样和合成少数过采样技术(SMOTE及其改进版MSMOTE),以及集成算法技术如Bagging和Boosting。这些方法旨在改善分类器在不平衡数据集上的性能。
摘要由CSDN通过智能技术生成

在机器学习中,我们经常会遇到类别数据分布不均衡问题,即某类中含有很多数据,而其他类别中的数据量很少。在这种情况下, 使用传统机器学习算法开发的预测模型可能存在偏差和不准确,造成上述的原因是,传统算法模型通过减少loss来提高准确性,他们并没有考虑到类别的分类不均问题。因此机器学习算法在面对不平衡的数据集时, 往往会产生不理想的分类器。


标准分类器算法 (如决策树和逻辑回归) 倾向于只预测多数类数据。少数群体的特征被视为噪音, 往往被忽略。因此, 与多数类相比, 少数类被错误分类的可能性很大。

常使用混淆矩阵来衡量分类算法性能的评价。
在这里插入图片描述举个例子,不平衡分类数据下模型的危害。
假如我们要过滤1000封邮件,里面有用990封,有10封是广告邮件,这是需要进行过滤的。
这是我们训练得到一个分类器,其精度为99.0,看上去精度很高,但没用,这个分类器可能把所有1000封都认为是有用的,这样情况下并没起到过滤作用。

所以当存在分类数据不均衡时,我们必须要进行处理。


处理不平衡数据集的方法

2.1数据级方法:重采样技术(Data Level approach: Resampling Techniques)

  1. 随机下采样ÿ

  • 5
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值