处理数据不平衡方法

最新推荐文章于 2023-08-14 15:44:58 发布

Halosec_Wei

最新推荐文章于 2023-08-14 15:44:58 发布

阅读量1.1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41686130/article/details/102991799

版权

本文探讨了数据不平衡问题，介绍了包括随机过采样、SMOTE过采样、ADASYN过采样在内的多种过采样方法，以及随机欠采样、Prototype generation和组合采样等欠采样策略。这些方法旨在平衡不同标签的样本数量，提高模型性能。同时，文章提到了SMOTETomek和SMOTEENN作为组合采样工具的应用，以减少噪声样本。

摘要由CSDN通过智能技术生成

过采样是补充那些数据量少的样本，使得不同标签的样本量达到均衡。

1.随机过采样

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)

2. SMOTE过采样

from imblearn.over_sampling import SMOTE, ADASYN
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))

3. ADASYN过采样

X_resampled, y_resampled = ADASYN().fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))

这三种方法的差别如下：

随机：对于少数类样本a,随机选择多数类样本b的个数-a的个数个少数类样本a

SMOTE: 对于少数类样本a, 随机选择一个最近邻的样本b, 然后从a与b的连线上随机选取一个点c作为新的少数类样本;

ADASYN: 关注的是在那些基于K近邻分类器被错误分类的原始样本附近生成新的少数类样本

欠采样是将多的样本进行裁剪，已达到样本的均衡。使用过采样，

最低0.47元/天解锁文章

Halosec_Wei

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录