处理不平衡数据我们可以采用欠(下)采样和过(上)采样的方法。
欠(下)采样:就是从数据量较多那类样本中,随机选出与数据较少那类样本数量相同的样本,最终组成正负样本数量相同的样本集。
过(上)采样:对样本中数量较少的那类样本生成算法补齐,使之达到与较多那类样本相匹配的数量,如SMOTO算法。合成新样本的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a,b之间的连线上随机选一点作为新合成的少数类样本。
SMOTE算法步骤
(4)重复步骤(1)、(2)和(3),通过迭代少数类别中的每一个样本
x
i
x_i
xi,最终将原始的少数类别样本量扩大为理想的比例。
SMOTE算法的代码实现
SMOTE算法的python实现如下:
from imblearn.over_sampling import SMOTE
X_oversampling,Y_oversampling=SMOTE(random_state = 100).fit_sample(X,Y)
SMOTE函数参数介绍
本文参考:https://www.cnblogs.com/HuangYJ/p/11773690.html