python 使用imblearn处理非平衡数据

本文介绍如何在Python中使用imblearn库处理非平衡数据集,以提高分类模型对少数类别的识别能力。通过过采样、欠采样和集成学习方法,如SMOTE、ADASYN、ClusterCentroids、RandomUnderSampler以及BalancedBaggingClassifier,调整数据集比例,提升非一线城市分类的召回率和准确率。
摘要由CSDN通过智能技术生成

今天准备做一个针对python工作选择城市的分类算法
数据集格式:
在这里插入图片描述
以城市city那一列作为训练的目标值,这里把城市分为两类:
一线城市和其他,一线城市包括:北京,上海,深圳,广州,这样划分后会导致数据集不平衡:
python工作在上述一线城市的数量占到9成以上,在分类过程中,算法可能会有较好精确率,但是预测后发现算法将城市都预测为一线城市,
因此,在这里要通过召回率和准确率来评判模型的好坏。

*这里就要使用到不平衡数据集的处理方式
1.过采样:将数量较少的数据增加如smote算法等
2.欠采样:将数量多的数据减少到跟数量少的数据一个量级
3.集成分类方法:通过对较多的数据集抽样和较少数据集组成新的数据集,然后进行投票的方式进行分类

代码实现

使用sklearn的扩展库imblearn
python 直接pip install i’m’b’learn

imblearn详细使用:
函数详细介绍

过采样:

导入方法
from imblearn.over_sampling import SMOTE, ADASYN

使用

 x_re
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值