用Python处理不平衡数据集

1. 数据不平衡是什么

所谓的数据不平衡就是指各个类别在数据集中的数量分布不均衡;在现实任务中不平衡数据十分的常见。如

· 信用卡欺诈数据:99%都是正常的数据, 1%是欺诈数据

· 贷款逾期数据

一般是由于数据产生的原因导致出的不平衡数据,类别少的样本通常是发生的频率低,需要很长的周期进行采集。

在机器学习任务(如分类问题)中,不平衡数据会导致训练的模型预测的结果偏向于样本数量多的类别,这个时候除了要选择合适的评估指标外,想要提升模型的性能,就要对数据和模型做一些预处理。

处理数据不平衡的主要方法:

· 欠采样
· 过采样
· 综合采样
· 模型集成
· 调整类别权重或者样本权重

2. 数据不平衡处理方法

imbalanced-learn库提供了许多不平衡数据处理的办法,本文的例子都以imbalanced-learn库来实现。

https://github.com/scikit-learn-contrib/imbalanced-learn

先来看下数据

2.1 欠采样

欠采样,就是对数量多类别的样本进行抽样,使其数量与数量少的类别的数量相当,以此来达到数量的平衡。


推荐 :020 持续更新,精品小圈子每日都有新内容,干货浓度极高。
结实人脉、讨论技术 你想要的这里都有!
抢先入群,跑赢同龄人!(入群无需任何费用)
点击此处,与Python开发大牛一起交流学习。
群号:745895701
申请即送:
Python软件安装包,Python实战教

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值