smoteenn算法_类别不平衡问题之SMOTE算法（Python imblearn极简实现）

最新推荐文章于 2023-12-07 23:19:47 发布

衍复投资高亢

最新推荐文章于 2023-12-07 23:19:47 发布

阅读量4.8k

点赞数

文章标签： smoteenn算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35275162/article/details/112955985

版权

本文介绍了类别不平衡问题及其影响，如在欺诈检测中的挑战。探讨了上采样和下采样策略，并重点讲解了SMOTE算法。通过Python的imblearn库展示了如何实现SMOTE进行数据平衡，包括调整样本比例和应用RandomUnderSampler进行下采样。

摘要由CSDN通过智能技术生成

类别不平衡问题

类别不平衡问题，顾名思义，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。

类别不平衡问题在很多场景中存在，例如欺诈检测，风控识别，在这些样本中，黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。

上采样(过采样)

和下采样(负采样)策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量，下采样即减少多数类样本以获取相对平衡的数据集。

最简单的上采样方法可以直接将少数类样本复制几份后添加到样本集中，最简单的下采样则可以直接只取一定百分比的多数类样本作为训练集。

SMOTE算法是用的比较多的一种上采样算法，SMOTE算法的原理并不是太复杂，用python从头实现也只有几十行代码，但是python的imblearn包提供了更方便的接口，在需要快速实现代码的时候可直接调用imblearn。

imblearn类别不平衡包提供了上采样和下采样策略中的多种接口，基本调用方式一致，主要介绍一下对应的SMOTE方法和下采样中的RandomUnderSampler方法。imblearn可使用pip

install

imblearn直接安装。

代码示例

生成类别不平衡数据

# 使用sklearn的make_classification生成不平衡数据样本

from sklearn.datas

最低0.47元/天解锁文章

衍复投资高亢

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。