一、出现场景
1.异常检测场景和罕见事件的分析2.客户流失场景3.发生频率低的事件
二、解决方法
1.过采样/上采样(应用更广泛)
(1)方法:增加分类中少数类样本的数量来实现样本均衡
- 最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;
- 经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。
from imblearn.over_sampling import SMOTE # 过抽样处理库SMOTE
model_smote = SMOTE() # SMOTE算法是对正例进行线性插值产生额外的正例。
x_smote_resampled, y_smote_resampled = model_smote.fit_sample(x,y)
x_smote_resampled = pd.DataFrame(x_smote_resampled, columns=['col1','col2']) # 将数据转换为数据框并命名列名
y_smote_resampled = pd.DataFrame