imbalance data分类解决办法

http://blog.csdn.net/u011414200/article/details/50664266

http://www.tk4479.net/a358463121/article/details/52304670

https://www.jiqizhixin.com/articles/2017-03-20-8

http://www.jianshu.com/p/3e8b9f2764c8

点击打开链接 LR模型常见问题小议

不平衡数据的场景也出现在互联网应用的方方面面,如搜索引擎的点击预测(点击的网页往往占据很小的比例),电子商务领域的商品推荐(推荐的商品被购买的比例很低),信用卡欺诈检测,网络攻击识别等等。

1.随机过采样


2.under sampling欠采样


加权


3.informed 欠采样

3.1EasyEnsemble算法


3.2BalanceCascade算法


基于聚类的过采样


4.ENN,最近邻规则(edited nearest neighbor: ENN)

NCL,领域清理规则 (neighborhod cleaning rule: NCL)

KNN


5.数据生成的合成抽样方法

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术

自适应合成抽样方法

Borderline-SMOTE算法

利用数据清洗技术的抽样

移除重复的样本,可以在训练集中建立良号定义的类簇,这反过来又可以为提高分类性能定义良好的分类准则。在这个领域中,典型的方法包括 OSS 方法简明近邻规则Tomek线(CNN+Tomek)集成方法基于编辑近邻(ENN)的近邻 清理规则(NCL)SMOTE 和ENN 的集成(SMOTE+ENN)以及 SMOTE 与 Tomek 线的集成(SMOTE+Tomek)


3.代价敏感学习算法(Cost-Sensitive Learning)

AdaCost算法


4.集成

基于bagging

基于boosting

自适应 boosting——Ada Boost

 梯度树 boosting

XGBoost



  1. 算法层面的处理方法
  2. 样本层面的处理方法,利用适当的方法重构训练样本,以提高分类性能
  3. 将算法和样本处理相结合使用,更能提高分类器的性能


评价指标


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值