python 使用imblearn处理非平衡数据

最新推荐文章于 2023-06-17 01:44:26 发布

飞车穿越联盟

最新推荐文章于 2023-06-17 01:44:26 发布

阅读量2.2k

点赞数 3

分类专栏：机器学习文章标签： python 算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38546597/article/details/108245424

版权

本文介绍如何在Python中使用imblearn库处理非平衡数据集，以提高分类模型对少数类别的识别能力。通过过采样、欠采样和集成学习方法，如SMOTE、ADASYN、ClusterCentroids、RandomUnderSampler以及BalancedBaggingClassifier，调整数据集比例，提升非一线城市分类的召回率和准确率。

摘要由CSDN通过智能技术生成

今天准备做一个针对python工作选择城市的分类算法
数据集格式：
在这里插入图片描述
以城市city那一列作为训练的目标值，这里把城市分为两类：
一线城市和其他，一线城市包括：北京，上海，深圳，广州，这样划分后会导致数据集不平衡：
python工作在上述一线城市的数量占到9成以上，在分类过程中，算法可能会有较好精确率，但是预测后发现算法将城市都预测为一线城市，
因此，在这里要通过召回率和准确率来评判模型的好坏。

*这里就要使用到不平衡数据集的处理方式
1.过采样：将数量较少的数据增加如smote算法等
2.欠采样：将数量多的数据减少到跟数量少的数据一个量级
3.集成分类方法：通过对较多的数据集抽样和较少数据集组成新的数据集，然后进行投票的方式进行分类

代码实现

使用sklearn的扩展库imblearn
python 直接pip install i’m’b’learn

imblearn详细使用：
函数详细介绍

过采样：

导入方法
from imblearn.over_sampling import SMOTE, ADASYN

使用

 x_re

最低0.47元/天解锁文章

飞车穿越联盟

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。