数据分析：数据量级不平衡的数据进行处理

最新推荐文章于 2024-07-12 19:06:42 发布

sd116460

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量1.3k

点赞数

分类专栏：数据处理数据分析/挖掘文章标签： python 机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sd116460/article/details/111316942

版权

数据处理同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

数据分析/挖掘

4 篇文章 0 订阅

订阅专栏

对于不平衡数据（事件）的balance处理

对小概率事件进行预测（判断）的时候，一定要对数据做balance处理，不然会使得模型天然的倾向于大概率的结果。

处理方式：

1.上采样少数类别：上采样是从少数类别中随机扶着观测样本以增强其信号的过程，最常见的集中试探法是使用简单的放回抽样的方式重采样，从sklearn中导入重采样模块这种处理方式会导致准确率急转而下，但是性能指标更有意义

2.下采样多数类别：下采样包括从多数类别中随机的一处观测样本，防止他的信息主导学习算法，其中最常见的试探法是不放回抽样式重采样

将每个类别的观测样本分离到不同的DataFrame中，接着讲采用不放回抽样来重采样多数类别，让样本的数量与少数类别数量想当，最后合并下采样后的多数类别与原始的少数类别合并

3.改变你的性能指标：

对于分类的通用指标，推荐使用ROC曲线下面积（AUROC)

表示从类别中区别观测样本的可能性，换句话说，如果你能从每个类别中随机选择一个观察样本，它将被正确分类的概率是多大

从sklearn中导入这个指标：from sklearn.metrics import roc_auc_score

为了计算AUROC，你将需要预测类别的概率，而非仅预测类别。

使用如下代码来获取这些结果 predict_proba()

AUROC>=0.5

4.惩罚算法（代价敏感学习）

使用SVM算法：支持向量机，因为存在对少数类别分类错误的代价

5.基于树的算法：

决策树通常在不平衡数据集上表现良好，因为他们的层级结构允许他们从两个类别去学习，随机森林

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析：数据量级不平衡的数据进行处理

对于不平衡数据（事件）的balance处理对小概率事件进行预测（判断）的时候，一定要对数据做balance处理，不然会使得模型天然的倾向于大概率的结果。处理方式：1.上采样少数类别：上采样是从少数类别中随机扶着观测样本以增强其信号的过程，最常见的集中试探法是使用简单的放回抽样的方式重采样，从sklearn中导入重采样模块这种处理方式会导致准确率急转而下，但是性能指标更有意义2.下采样多数类别：下采样包括从多数类别中随机的一处观测样本，防止他的信息主导学习算法，其中最常见...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。