机器学习：类不平衡问题求解

最新推荐文章于 2023-12-27 18:07:43 发布

c.x.y.07.30

最新推荐文章于 2023-12-27 18:07:43 发布

阅读量611

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/MARY197011111/article/details/90264974

版权

本文探讨了类不平衡问题在异常检测、客户流失和低频事件等场景中的出现，并介绍了五种解决方法：过采样、降采样、权重调整、组合方法和基于列的特征选择。这些方法旨在通过平衡样本分布来改善模型性能。

摘要由CSDN通过智能技术生成

一、出现场景

1.异常检测场景和罕见事件的分析2.客户流失场景3.发生频率低的事件

二、解决方法

1.过采样/上采样（应用更广泛）
（1）方法：增加分类中少数类样本的数量来实现样本均衡

最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；
经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。

from imblearn.over_sampling import SMOTE # 过抽样处理库SMOTE
model_smote = SMOTE() # SMOTE算法是对正例进行线性插值产生额外的正例。
x_smote_resampled, y_smote_resampled = model_smote.fit_sample(x,y) 
x_smote_resampled = pd.DataFrame(x_smote_resampled, columns=['col1','col2']) # 将数据转换为数据框并命名列名
y_smote_resampled = pd.DataFrame