处理不平衡数据的方法

最新推荐文章于 2023-03-16 23:19:02 发布

zoujiahui_2018

最新推荐文章于 2023-03-16 23:19:02 发布

阅读量685

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_18055167/article/details/108202531

版权

机器学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

处理不平衡数据我们可以采用欠（下）采样和过（上）采样的方法。
欠（下）采样：就是从数据量较多那类样本中，随机选出与数据较少那类样本数量相同的样本，最终组成正负样本数量相同的样本集。
过（上）采样：对样本中数量较少的那类样本生成算法补齐，使之达到与较多那类样本相匹配的数量，如SMOTO算法。合成新样本的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a,b之间的连线上随机选一点作为新合成的少数类样本。
在这里插入图片描述

SMOTE算法步骤

在这里插入图片描述

（4）重复步骤（1）、（2）和（3），通过迭代少数类别中的每一个样本 $x_i$ ，最终将原始的少数类别样本量扩大为理想的比例。

SMOTE算法的代码实现

SMOTE算法的python实现如下：

from imblearn.over_sampling import SMOTE
X_oversampling,Y_oversampling=SMOTE(random_state = 100).fit_sample(X,Y)

SMOTE函数参数介绍

在这里插入图片描述
本文参考：https://www.cnblogs.com/HuangYJ/p/11773690.html

zoujiahui_2018

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
处理不平衡数据的方法

处理不平衡数据我们可以采用欠（下）采样和过（上）采样的方法。欠（下）采样：就是从数据量较多那类样本中，随机选出与数据较少那类样本数量相同的样本，最终组成正负样本数量相同的样本集。过（上）采样：对样本中数量较少的那类样本生成算法补齐，使之达到与较多那类样本相匹配的数量，如SMOTO算法。合成新样本的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a,b之间的连线上随机选一点作为新合成的少数类样本。SMOTE算法步骤（4）重复步骤（1）、（2）和（3），通过迭代少数类别中的每一个
复制链接

扫一扫