分类问题中不平衡数据分布的解决方案

最新推荐文章于 2023-02-01 23:15:00 发布

himon980

最新推荐文章于 2023-02-01 23:15:00 发布

阅读量2.6k

点赞数

分类专栏：数据挖掘文章标签：解决方案数据挖掘

本文链接：https://blog.csdn.net/u012559520/article/details/78249192

版权

针对分类问题中不平衡数据分布的挑战，本文提出了多种解决方案，包括聚类分析、采样方法（过采样和欠采样）、人工生成样本如SMOTE和Tomek，以及使用one-class SVM等算法。此外，还介绍了EasyEnsemble和BalanceCascade集成学习策略，以及通过调整训练次数、聚类和boosting算法等技巧来改进分类效果。

摘要由CSDN通过智能技术生成

问题定义：

解决方案：
1. 做一次聚类分析。可以考察，其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器，将这一些样本分开，然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。
2. 从采样的角度处理
over-sampling，对小样本增加副本（复制部分）
under-sampling，对大样本选取部分
3. 人工生成样本
SMOTE+Tomek
SMOTE或者Borderline-SMOTE来随机生成人造样本
Tomek来删除空间上相邻的不同类样本对。

从算法的角度
将样本分布极不平衡的分类问题看作是异常点检测(anomaly detection)和变化趋势问题(change detection)，训练one-class分类器。
比如 One-class SVM
EasyEnsemble 和 BalanceCascade 算法介绍

(1).EasyEnsemble 核心思想是：
首先通过从多数类中独立随机抽取出若干子集
将每个子集与少数类数据联合起来训练生成多个基分类器
最终将这些基分类器组合形成一个集成学习系统
EasyEnsemble 算法被认为是非监督学习算法，因此它每次都独立利用可放回随机抽样机制来提取多数类样本
(2). BalanceCascade 核心思想是：
使用之前已形成的集成分类器来为下一次训练选择多类样本
然后再进行欠抽样

其他trick&#

最低0.47元/天解锁文章

himon980

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分类问题中不平衡数据分布的解决方案

问题定义：解决方案： 1. 做一次聚类分析。可以考察，其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器，将这一些样本分开，然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。 2. 从采样的角度处理 over-sampling，对小样本增加副本（复制部分） under-sampling，对大样本选取部分 3. 人工生成样本
复制链接

扫一扫