机器学习中处理不平衡数据的方法论研究_决策树处理不平衡数据-CSDN博客

本文链接：https://blog.csdn.net/kunming19850325/article/details/147073871

一、引言

在机器学习领域，数据的均衡性对模型性能有着深远影响。理想状态下，数据集中各类别的样本数量大致相等，模型可充分学习各特征模式。然而，现实场景常出现类别不平衡问题，如在欺诈检测中，正常交易样本可能远超欺诈交易样本；在疾病诊断里，健康样本数量往往多于患病样本。这种不平衡易导致模型倾向多数类，对少数类识别能力差，即使整体准确率高，在关键少数类预测上也可能表现不佳。因此，研究处理不平衡数据的方法论意义重大。

二、不平衡数据对模型的影响

（一）模型准确率的误导性

在不平衡数据下，模型准确率易产生误导。例如，一个数据集里99%是负样本，1%是正样本，若模型简单将所有样本预测为负样本，就能获得99%的准确率，但这对正样本的识别毫无意义。此时，准确率无法真实反映模型对少数类的分类能力，模型虽整体得分高，却在关键分类任务上失败。

（二）过拟合与欠拟合风险

少数类样本量少，模型难以学习到其复杂特征，易出现欠拟合，无法准确识别少数类样本。而在对多数类样本学习时，模型可能过度拟合多数类特征，对少数类的泛化能力不足。如在预测罕见病的模型中，由于患病样本少，模型难以掌握患病特征，而对大量健康样本过度学习，导致预测患病样本时出错。

三、数据层面的处理方法

（一）过采样技术

1. 随机过采样（Random Oversampling）：从少数类样本中随机有放回地抽取样本，增加少数类样本数量，使其与多数类样本数量接近。如在二分类问题中，少数类样本有100个，多数类有1000个，通过随机过采样复制少数类样本，使少数类也达到1000个。该方法简单直接，但可能导致过拟合，因为复制的样本完全相同，未增加新的信息。

2. SMOTE算法（Synthetic Minority Over - sampling Technique）：SMOTE算法通过在少数类样本的特征空间中，对每个少数类样本与其近邻样本进行线性插值，生成新的少数类合成样本。例如，对于一个少数类样本点，找到它的k个最近邻，然后在该样本点和其中一个最近邻之间随机选择一个点作为新的合成样本。这种方法生成的样本更具多样性，能有效避免过拟合，提升模型对少数类的识别能力。

（二）欠采样技术

1. 随机欠采样（Random Undersampling）：从多数类样本中随机无放回地删除样本，减少多数类样本数量，以平衡数据集。比如多数类样本有1000个，少数类有100个，随机删除多数类中的900个样本。但该方法可能丢失多数类中的重要信息，降低模型的泛化能力，因为删除样本可能导致一些有价值的特征和模式被舍弃。

2. Tomek Links算法：Tomek Links是一对不同类别的最近邻样本。通过识别并删除多数类中的Tomek Links样本，在减少多数类样本数量的同时保留重要信息。该方法能有效去除多数类中的噪声样本和边界样本，改善数据分布，提升模型性能，相比随机欠采样更具针对性。

四、算法层面的处理方法

（一）调整分类器阈值

许多分类算法输出的是样本属于某类别的概率，而非直接的类别标签。通过调整分类阈值，可以改变模型对正负样本的判断。例如，在逻辑回归模型中，默认阈值为0.5，将样本预测概率大于0.5的判定为正样本，小于0.5的判定为负样本。在不平衡数据下，可以降低阈值，如将阈值设为0.3，使更多样本被判定为正样本，提高对少数类的召回率，但这可能会降低精确率，需要根据具体业务需求权衡。

（二）使用集成学习算法

1. AdaBoost算法：AdaBoost是一种迭代的集成学习算法。在训练过程中，它会为每个样本分配一个权重，初始时所有样本权重相等。每次迭代后，提高被错误分类样本的权重，降低正确分类样本的权重，使得后续的弱分类器更关注那些难以分类的样本。对于不平衡数据，AdaBoost能通过调整权重，让模型更多地学习少数类样本的特征，提升对少数类的分类能力。

2. 随机森林算法改进：在随机森林的基础上，可以对每个决策树的构建过程进行改进，使其更关注少数类样本。例如，在构建决策树时，对少数类样本进行过采样，或者在节点分裂时，使用考虑类别不平衡的分裂准则，如基于代价敏感的信息增益，让决策树在划分时更偏向于正确分类少数类样本，从而提升整个随机森林模型对不平衡数据的处理能力。

五、评估指标的选择与应用

（一）混淆矩阵

混淆矩阵是评估分类模型性能的基础工具，它直观展示了模型在各个类别上的预测情况。对于不平衡数据，通过混淆矩阵可以清晰看到模型对少数类和多数类样本的正确分类和错误分类数量，进而计算其他评估指标。例如，在一个二分类问题中，混淆矩阵包含真正例（True Positive，TP）、假正例（False Positive，FP）、真负例（True Negative，TN）和假负例（False Negative，FN），这些值是计算其他指标的基础。

（二）精确率、召回率与F1值

1. 精确率（Precision）：精确率表示预测为正类且实际为正类的样本占预测为正类样本的比例，即Precision = TP / (TP + FP)。在不平衡数据中，精确率衡量了模型预测为少数类样本的准确性，若精确率低，说明模型将大量多数类样本误判为少数类样本。

2. 召回率（Recall）：召回率表示实际为正类且被正确预测为正类的样本占实际正类样本的比例，即Recall = TP / (TP + FN)。召回率反映了模型对少数类样本的覆盖程度，召回率低意味着模型遗漏了很多实际的少数类样本。

3. F1值：F1值是精确率和召回率的调和平均数，F1 = 2 * (Precision * Recall) / (Precision + Recall) 。F1值综合考虑了精确率和召回率，能更全面地评估模型在不平衡数据上的性能，F1值越高，说明模型在少数类样本的分类上表现越好。

（三）ROC曲线与AUC值

1. ROC曲线（Receiver Operating Characteristic Curve）：ROC曲线以假正率（False Positive Rate，FPR = FP / (FP + TN)）为横坐标，真正率（True Positive Rate，TPR = TP / (TP + FN)）为纵坐标。在不平衡数据下，ROC曲线可以直观展示模型在不同分类阈值下的性能变化，不依赖于样本的类别分布。

2. AUC值（Area Under the Curve）：AUC值是ROC曲线下的面积，取值范围在0到1之间。AUC值越大，说明模型的分类性能越好，当AUC = 0.5时，模型的预测效果等同于随机猜测；当AUC = 1时，模型能完美分类所有样本。在评估不平衡数据的模型时，AUC值能更客观地衡量模型的优劣，不受类别不平衡的影响。

六、结论

处理机器学习中的不平衡数据是一个复杂且关键的任务，需要综合运用数据层面的过采样、欠采样技术，算法层面的分类器阈值调整、集成学习算法改进，以及合理选择评估指标等多种方法论。每种方法都有其优缺点和适用场景，在实际应用中，需要根据具体的数据特点、业务需求和模型类型，灵活选择和组合这些方法，以提升模型对少数类样本的识别能力，避免模型被多数类主导，从而构建出更高效、准确的机器学习模型，更好地应对现实世界中各种不平衡数据带来的挑战，推动机器学习技术在更多领域的可靠应用。