imbalance data分类解决办法

最新推荐文章于 2024-04-01 10:01:32 发布

冰竹依梦

最新推荐文章于 2024-04-01 10:01:32 发布

阅读量3k

点赞数

分类专栏：机器学习文章标签： imbalance data分类解决办法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013240812/article/details/78435592

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/u011414200/article/details/50664266

http://www.tk4479.net/a358463121/article/details/52304670

https://www.jiqizhixin.com/articles/2017-03-20-8

http://www.jianshu.com/p/3e8b9f2764c8

点击打开链接 LR模型常见问题小议

不平衡数据的场景也出现在互联网应用的方方面面，如搜索引擎的点击预测（点击的网页往往占据很小的比例），电子商务领域的商品推荐（推荐的商品被购买的比例很低），信用卡欺诈检测，网络攻击识别等等。

1.随机过采样

2.under sampling欠采样

加权

3.informed 欠采样

3.1EasyEnsemble算法

3.2BalanceCascade算法

基于聚类的过采样

4.ENN,最近邻规则(edited nearest neighbor: ENN)

NCL,领域清理规则 (neighborhod cleaning rule: NCL)

KNN

Tomek Link Removal

5.数据生成的合成抽样方法

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术

自适应合成抽样方法

Borderline-SMOTE算法

利用数据清洗技术的抽样

移除重复的样本，可以在训练集中建立良号定义的类簇，这反过来又可以为提高分类性能定义良好的分类准则。在这个领域中，典型的方法包括 OSS 方法、简明近邻规则、Tomek线（CNN+Tomek）集成方法、基于编辑近邻（ENN）的近邻清理规则（NCL）、SMOTE 和ENN 的集成（SMOTE+ENN）以及 SMOTE 与 Tomek 线的集成（SMOTE+Tomek）。

3.代价敏感学习算法(Cost-Sensitive Learning)

AdaCost算法

4.集成

基于bagging

基于boosting

自适应 boosting——Ada Boost

梯度树 boosting

XGBoost

算法层面的处理方法
样本层面的处理方法，利用适当的方法重构训练样本，以提高分类性能
将算法和样本处理相结合使用，更能提高分类器的性能

评价指标

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
imbalance data分类解决办法

http://blog.csdn.net/u011414200/article/details/50664266http://www.tk4479.net/a358463121/article/details/523046701.随机过采样2.under sampling欠采样加权3.informed 欠采样3.1EasyEnsemble
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。