机器学习中上(过)、下(欠)采样的方法

最新推荐文章于 2024-07-18 12:03:15 发布

huangqihao723

最新推荐文章于 2024-07-18 12:03:15 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/huangqihao723/article/details/89020585

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

过采样：

smote

假设有两个class：class1 和 class2 ，其中class1样本数少
从class1中随机选择一个点C，找到该点的K个邻居
从K个邻居中随机选择一个点C_ne
连接C与C1，在C与C_ne的连线上生成新的点C_new
重复1-4 M步骤，可构造M个点

from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE
from  collections import Counter

# 构造不平衡数据
x,y=make_classification(n_classes=2,n_features=20,n_samples=100,shuffle=True,weights=[0.9,0.1])

#
smt=SMOTE(k_neighbors=4,sampling_strategy=0.5)
x1,y1=smt.fit_resample(x,y)
print(Counter(y1))

欠采样：

参考文章：https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/tsmcb09.pdf

EasyEnsemble

BalanceCascade

EasyEnsemble 中下采样的方式是无监督的，只是将N做有放回的抽样，然后与P一起，构成子树的样本集
BalanceCascade 中下采样的方式是有监督的，在1的基础上，用adaboost方法生成分类器H1，用H1去对N中的样本做预测，如果预测对的话，那么认为该样本是冗余的，就可以从N中去除；
上述两个算法是将下采样与分类器一并构造；