处理不平衡数据的五种方法

Norah_Wu

已于 2022-10-10 17:23:44 修改

阅读量3k

点赞数 2

文章标签：机器学习

于 2022-09-23 14:27:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Norah_Wu/article/details/127010151

版权

本文介绍了处理不平衡数据的五种方法，包括随机欠采样、过采样、使用 imblearn 工具如Tomek Links和SMOTE，设置模型中的class_weights，以及改变评估指标。还探讨了F1 Score的重要性，并提出了其他解决方案，如收集更多数据、转换为异常检测问题和使用特定模型。

摘要由CSDN通过智能技术生成

大家好，我是小寒。

原文链接

你是否曾经遇到过这样的问题：你的数据集中的正类样本非常小，以至于模型无法学习？

「在这种情况下，仅通过预测多数类就可以获得相当高的准确度，但无法捕获少数类。」

这样的数据集很常见，被称为「不平衡数据集。」

不平衡数据集是分类问题的一种特殊情况，其中类之间分布不均匀。通常，它们由两个类组成：多数（负）类和少数（正）类。

在不同的领域都会有这样的数据集，例如：

「金融」：欺诈检测数据集的欺诈率通常约为 1%-2%
「广告服务」：点击预测数据集的点击率也不高。
「运输」/ 「航空公司」：飞机发生故障的概率也非常低。
「医疗」：患者是否患有癌症的概率很低。

那么我们如何解决这些问题呢？

1、随机欠采样和过采样

alt

处理高度不平衡的数据集的一种被广泛采用的方法是重采样。它包括从多数类中删除样本（欠采样）和从少数类中添加更多样本（过采样）。

让我们首先创建一个不平衡的数据集。

最低0.47元/天解锁文章

关注

2
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。