机器学习：类别不平衡问题笔记

最新推荐文章于 2024-08-27 14:38:12 发布

Ningbo_JiaYT

最新推荐文章于 2024-08-27 14:38:12 发布

阅读量485

点赞数 3

分类专栏：机器学习文章标签：机器学习数据分析笔记

本文链接：https://blog.csdn.net/Ningbo_JiaYT/article/details/136711660

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

类别不平衡问题是 分类任务 中常见的问题，表现为数据集中不同类别的样本数量存在 显著差异 （即某些类别的样本数量远远多于其他类别），它常见于真实世界的许多场景，例如：

在金融领域，银行区分欺诈行为（少）和正常交易行为（多）；在医疗领域，筛查或诊断疾病时，病人（少）远少于健康人（多）；以及在文本分类方面，识别垃圾邮件（少）和正常邮件（多）等。

这种不平衡会导致分类模型在训练阶段，过分关注于 多数类，使其在多数类上表现出较好的分类能力；而对于 少数类，模型往往因忽视它的信息而造成错分。这时候，由于多数类在数据集中占较大的比重，模型的 总体准确率 主要由多数类的准确率所决定，其泛化能力因此受到质疑。

然而，我们往往对这些少数类更感兴趣，这时候就需要解决这种不平衡问题。以下介绍常见的几种方法。

方法导图

一、数据准备阶段

合并类别：

某些类别的数量很少且非常相似，可以考虑将它们合并为一个类别，从而增加该类别的样本数量。

重采样（Resampling）：

1. 过采样（Oversampling）：增加少数类的样本数量，直至与多数类大致相同。简单的过采样方法是直接复制少数类的样本，但其存在过拟合的风险；而复杂的方法则是合成 新样本，如 SMOTE技术（Synthetic Minority Over-sampling Technique，SMOTE），它通过在全部少数类样本间进行插值生成新的样本；以及 自适应合成技术（Adaptive Synthetic，ADASYN），它在少数类样本中的离群值/异常值周围生成新的样本。Python中分别使用 imblearn库中的 RandomOverSampler类、 SMOTE类和 ADASYN类来实现。

2. 欠采样（Undersampling）：减少多数类的样本数量，使其与少数类的样本数量接近。因为选择性地舍弃了部分多数类样本，故可能会丢失重要信息。Python中使用 imblearn库中的 RandomUnderSampler类来实现。