大家好,我是小寒。
你是否曾经遇到过这样的问题:你的数据集中的正类样本非常小,以至于模型无法学习?
「在这种情况下,仅通过预测多数类就可以获得相当高的准确度,但无法捕获少数类。」
这样的数据集很常见,被称为「不平衡数据集。」
不平衡数据集是分类问题的一种特殊情况,其中类之间分布不均匀。通常,它们由两个类组成:多数(负)类和少数(正)类。
在不同的领域都会有这样的数据集,例如:
-
「金融」:欺诈检测数据集的欺诈率通常约为 1%-2% -
「广告服务」:点击预测数据集的点击率也不高。 -
「运输」/ 「航空公司」:飞机发生故障的概率也非常低。 -
「医疗」:患者是否患有癌症的概率很低。
那么我们如何解决这些问题呢?
1、随机欠采样和过采样
处理高度不平衡的数据集的一种被广泛采用的方法是重采样。它包括从多数类中删除样本(欠采样)和 从少数类中添加更多样本(过采样)。
让我们首先创建一个不平衡的数据集。