SMOTE算法-样本类别不平衡问题

最新推荐文章于 2024-07-04 21:05:56 发布

贾世林jiashilin

最新推荐文章于 2024-07-04 21:05:56 发布

阅读量1.7k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35290785/article/details/102174739

版权

机器学习专栏收录该内容

108 篇文章 9 订阅

订阅专栏

类别不平衡问题

类别不平衡问题，顾名思义，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。

上采样(过采样)和下采样(负采样）策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量，下采样即减少多数类样本以获取相对平衡的数据集。
最简单的上采样方法可以直接将少数类样本复制几份后添加到样本集中，最简单的下采样则可以直接只取一定百分比的多数类样本作为训练集。
SMOTE算法是用的比较多的一种上采样算法，SMOTE算法的原理并不是太复杂，用python从头实现也只有几十行代码，但是python的imblearn包提供了更方便的接口，在需要快速实现代码的时候可直接调用imblearn。

imblearn类别不平衡包提供了上采样和下采样策略中的多种接口，基本调用方式一致https://blog.csdn.net/nlpuser/article/details/81265614

几种解决方案

目前主要有三种办法：

1. 调整 θθ 值

根据训练集的正负样本比例，调整 θθ 值。

这样做的依据是上面所述的对训练集的假设。但在给定任务中，这个假设是否成立，还有待讨论。

2. 过采样

对训练集里面样本数量较少的类别（少数类）进行过采样，合成新的样本来缓解类不平衡。

下面将介绍一种经典的过采样算法：SMOTE。

3. 欠采样

对训练集里面样本数量较多的类别（多数类）进行欠采样，抛弃一些样本来缓解类不平衡。

SMOTE算法思想

贾世林jiashilin

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

贾世林jiashilin 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。