DataScience：数据不均衡-数据采样的简介及其解决方法(重采样/改权重/集成学习EasyEnsemble)、常用工具包、案例应用之详细攻略

一个处女座的程序猿

已于 2023-07-09 14:07:42 修改

阅读量6.6k

点赞数 5

分类专栏： DataScience 金融风控文章标签：数据采样数据不均衡 EasyEnsemble

于 2020-07-21 22:29:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/107457870

版权

金融风控同时被 2 个专栏收录

26 篇文章 21 订阅 ¥99.90 ¥299.90

订阅专栏

326 篇文章 72 订阅

订阅专栏

该博客详细介绍了数据不均衡问题的解决方案，包括重采样策略（升采样、降采样、组合采样）以及改权重方法，如MetaCost算法。此外，还探讨了集成学习中的EasyEnsemble算法，并提到了Python中处理数据不均衡的imblearn、imbalanced-ensemble和pyod库。提供了多个实际案例，如基于决策树和逻辑回归的欺诈检测模型训练。

摘要由CSDN通过智能技术生成

DataScience：数据不均衡-数据采样的简介及其解决方法(重采样/改权重/集成学习EasyEnsemble)、常用工具包、案例应用之详细攻略

目录

数据不均衡-数据采样的简介及其解决方法

1、数据层面

T1、重采样——DataScience：数据不均衡-数据采样之重采样方法的简介(升采样【SRO/SMOTE/AdaSyn】、降采样【TomekLink】、组合采样【SMOTE+TomekLink】)之详细攻略

T2、改权重——ML：MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略

2、算法层面

T4、集成学习——ML之EasyEnsemble：EasyEnsemble集成学习算法的简介、案例应用之详细攻略

T5、代价敏感学习—ML：MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略

数据不均衡-数据采样的常用工具包

1、Python语言的工具包

Py之imblearn：imblearn/imbalanced-learn库的简介、安装、使用方法之详细攻略

Py之imbalanced-ensemble：imbalanced-ensemble库的简介、安装、使用方法之详细攻略

Py之pyod：pyod的简介、安装、使用方法之详细攻略

数据不均衡-数据采样的案例应用

1、基础案例

ML之FE：对数据不均衡数据集进行数据随机抽样/数据随机采样应用案例集合(如对超大样本的数据集进行随机采样、将大量数据的txt文件另存为csv文件)

2、进阶案例

ML之DT：基于脱敏的是否患病数据集(严重不均衡)利用四种采样策略(随机过抽样、SMOTE过采样、SMOTETomek综合采样、改变样本权重)训练决策树模型实现是否欺诈二分类实现代码

ML之LoR：利用信用卡数据集(欠采样{Nearmiss/Kmeans/TomekLinks/ENN}、过采样{SMOTE/ADASYN})同时采用LoR算法(PR和ROC评估)进行是否欺诈二分类

数据不均衡-数据采样的简介及其解决方法

了解本专栏

一个处女座的程序猿

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。