处理不平衡数据的五种方法

本文介绍了处理不平衡数据的五种方法,包括随机欠采样、过采样、使用 imblearn 工具如Tomek Links和SMOTE,设置模型中的class_weights,以及改变评估指标。还探讨了F1 Score的重要性,并提出了其他解决方案,如收集更多数据、转换为异常检测问题和使用特定模型。
摘要由CSDN通过智能技术生成

大家好,我是小寒。

原文链接

你是否曾经遇到过这样的问题:你的数据集中的正类样本非常小,以至于模型无法学习?

「在这种情况下,仅通过预测多数类就可以获得相当高的准确度,但无法捕获少数类。」

这样的数据集很常见,被称为「不平衡数据集。」

不平衡数据集是分类问题的一种特殊情况,其中类之间分布不均匀。通常,它们由两个类组成:多数(负)类和少数(正)类。

在不同的领域都会有这样的数据集,例如:

  • 「金融」:欺诈检测数据集的欺诈率通常约为 1%-2%
  • 「广告服务」:点击预测数据集的点击率也不高。
  • 「运输」/ 「航空公司」:飞机发生故障的概率也非常低。
  • 「医疗」:患者是否患有癌症的概率很低。

那么我们如何解决这些问题呢?

1、随机欠采样和过采样
alt

处理高度不平衡的数据集的一种被广泛采用的方法是重采样。它包括从多数类中删除样本(欠采样)和 从少数类中添加更多样本(过采样)。

让我们首先创建一个不平衡的数据集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值