在机器学习中,我们经常关注的是模型的准确性,即模型正确预测的比例。然而,在许多现实世界的应用中,不同类型的错误具有不同的代价。例如,在医疗诊断中,错误地将健康人诊断为患者(假阳性)和错误地将患者诊断为健康人(假阴性)的代价是不同的。在这种情况下,我们需要使用代价敏感学习来调整模型,以最小化总体代价,而不仅仅是最大化准确性。本文将详细介绍代价敏感矩阵的理论基础,并展示如何在实践中应用它。
1. 理论基础
1.1 代价敏感学习的必要性
在传统的不平衡数据集分类中,我们通常关注的是如何提高少数类的识别率,而代价敏感学习则更进一步,考虑了不同类型错误所带来的不同影响。
1.2 代价矩阵
代价矩阵是一个关键概念,它定义了不同类型错误所对应的代价。代价矩阵通常表示为:
预测为正类 § | 预测为负类 (N) | |
---|---|---|
实际为正类 § | 0 | C_FN |
实际为负类 (N) | C_FP | 0 |
- C_FP:假阳性(False Positive)的代价
- C_FN:假阴性(False Negative)的代价
1.3 调整决策阈值
在代价敏感学习中,我们通常通过调整决策阈值来改变模型的预测行为。对于给定的概率预测,我们可以选择