不均衡数据集采样1——SMOTE算法（过采样）

最新推荐文章于 2024-07-04 21:05:56 发布

呆萌的代Ma

最新推荐文章于 2024-07-04 21:05:56 发布

阅读量1.5k

点赞数

分类专栏：特征工程 python 机器学习文章标签：算法机器学习

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/121927100

版权

python 同时被 3 个专栏收录

593 篇文章 40 订阅

订阅专栏

特征工程

38 篇文章 30 订阅

订阅专栏

机器学习

36 篇文章 9 订阅

订阅专栏

SMOTE: Synthetic Minority Over-sampling Technique
论文地址:https://www.jair.org/index.php/jair/article/download/10302/24590

SMOTE的算法思路是：

使用K近邻，在附近（最少选附近5个点）随便找一个同一类别的点，然后连线
在线段上随便找一个点，就是新的样本点（论文里说的很学术：新样本点 = 原始点+random(0,1) * 新旧差异）

详细代码可以参考：https://zhuanlan.zhihu.com/p/44055312
在这里插入图片描述

代码示例

安装方法：pip install imbalanced-learn
https://imbalanced-learn.org/stable/over_sampling.html

过采样的文档地址：https://imbalanced-learn.org/stable/over_sampling.html

import pandas as pd
from imblearn.over_sampling import SMOTE


def get_dataset():
    from sklearn.datasets import make_classification
    data_x, data_y = make_classification(n_samples=1000, n_classes=2, n_features=6, n_informative=4,
                                         random_state=0)  # 2个特征
    # data_df = pd.DataFrame(data_x).merge(pd.Series(data_y, name="y_label"), left_index=True, right_index=True)
    data_x = pd.DataFrame(data_x)
    data_x.columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6']
    data_y = pd.Series(data_y)
    # 删除部分数据：删除100个label为0的数据
    drop_index = data_y[data_y == 0].sample(100).index
    data_y = data_y.drop(drop_index)
    data_x = data_x.drop(drop_index)
    return data_x, data_y


if __name__ == '__main__':
    x_data, y_data = get_dataset()  # 获取数据源

    # 使用smote生成数据
    smote_data = SMOTE().fit_resample(x_data, y_data.values)
    new_x_data = smote_data[0]  # 新的x
    new_y_data = smote_data[1]  # 新的y

在工具中，如果有多个类别，会默认将拥有最多数据量的类对应的数据量，作为目标量，将其他所有类别的数据量都生成到这个量

呆萌的代Ma

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
不均衡数据集采样1——SMOTE算法（过采样）

SMOTE: Synthetic Minority Over-sampling Technique论文地址:https://www.jair.org/index.php/jair/article/download/10302/24590SMOTE的算法思路是：使用KNN的聚类方法，在附近（最少选附近5个点）随便找一个点，然后连线在线段上随便找一个点，就是新的样本点详细代码可以参考：https://zhuanlan.zhihu.com/p/44055312代码示例安装方法：pip in.
复制链接

扫一扫