分类问题中不平衡数据分布的解决方案

针对分类问题中不平衡数据分布的挑战,本文提出了多种解决方案,包括聚类分析、采样方法(过采样和欠采样)、人工生成样本如SMOTE和Tomek,以及使用one-class SVM等算法。此外,还介绍了EasyEnsemble和BalanceCascade集成学习策略,以及通过调整训练次数、聚类和boosting算法等技巧来改进分类效果。
摘要由CSDN通过智能技术生成

问题定义:

解决方案:
1. 做一次聚类分析。可以考察,其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器,将这一些样本分开,然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。
2. 从采样的角度处理
over-sampling,对小样本增加副本(复制部分)
under-sampling,对大样本选取部分
3. 人工生成样本
SMOTE+Tomek
SMOTE或者Borderline-SMOTE来随机生成人造样本
Tomek来删除空间上相邻的不同类样本对。

  1. 从算法的角度
    将样本分布极不平衡的分类问题看作是异常点检测(anomaly detection)和变化趋势问题(change detection),训练one-class分类器。
    比如 One-class SVM

  2. EasyEnsemble 和 BalanceCascade 算法介绍

(1).EasyEnsemble 核心思想是:
首先通过从多数类中独立随机抽取出若干子集
将每个子集与少数类数据联合起来训练生成多个基分类器
最终将这些基分类器组合形成一个集成学习系统
EasyEnsemble 算法被认为是非监督学习算法,因此它每次都独立利用可放回随机抽样机制来提取多数类样本
(2). BalanceCascade 核心思想是:
使用之前已形成的集成分类器来为下一次训练选择多类样本
然后再进行欠抽样

其他trick&#

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值