问题定义:
解决方案:
1. 做一次聚类分析。可以考察,其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器,将这一些样本分开,然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。
2. 从采样的角度处理
over-sampling,对小样本增加副本(复制部分)
under-sampling,对大样本选取部分
3. 人工生成样本
SMOTE+Tomek
SMOTE或者Borderline-SMOTE来随机生成人造样本
Tomek来删除空间上相邻的不同类样本对。
从算法的角度
将样本分布极不平衡的分类问题看作是异常点检测(anomaly detection)和变化趋势问题(change detection),训练one-class分类器。
比如 One-class SVMEasyEnsemble 和 BalanceCascade 算法介绍
(1).EasyEnsemble 核心思想是:
首先通过从多数类中独立随机抽取出若干子集
将每个子集与少数类数据联合起来训练生成多个基分类器
最终将这些基分类器组合形成一个集成学习系统
EasyEnsemble 算法被认为是非监督学习算法,因此它每次都独立利用可放回随机抽样机制来提取多数类样本
(2). BalanceCascade 核心思想是:
使用之前已形成的集成分类器来为下一次训练选择多类样本
然后再进行欠抽样
其他trick&#