【信贷风控30分钟精通22】模型评估-CSDN博客

本文链接：https://blog.csdn.net/qq_32146369/article/details/136127967

本文探讨了模型评估中的泛化能力、过拟合与欠拟合问题，强调了在构建模型时需平衡误差和泛化。此外，文章介绍了业务评价指标如模型排序性、逾期率以及效果与成本的平衡，并详细阐述了模型部署和上线验证的过程，确保模型的准确性、稳定性和有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型评估

模型泛化

一个效果较好的模型不仅对当前的数据有较好的预测能力，还应该对未来产生的数据有较好的预测能力。我们把模型在未来数据上的预测能力称为泛化能力。模型的训练误差（training error）和测试误差（test error）可以用来衡量模型的泛化能力。一般地，模型在训练集和测试集上的误差相差越小，模型的泛化能力越强。

模型训练误差和测试误差之间的差距太大称为过拟合（overfitting）；模型不能在训练集上获得足够低的误差，称为欠拟合（underfiting）。简单地说，过拟合是指模型结构过于复杂,从训练样本上学习了表象而非肯后的真实规律；欠拟合是指模型结构过于简单，从训练样本上学习的信息不够。

在构建模型时，我们需要兼顾以下两点：降低误差；缩小训练误差与测试误差的差距。我们可以通过控制模型复杂度来调整模型的泛化能力。当我们训练模型时，增加模型复杂度，如果测试误差不再继续减小，甚至开始增加，那么此时应该停止训练，以得到最优模型。

当然模型复杂度不止在于参数的差异，还包含多个层面：算法的选择，如XGBoost比LR更复杂；模型的超参数选择，如XGBoost中的最大深度值越大，模型越复杂；模型的训练过程参数，如XGBoost中的训练轮次和是否使用early stop等。

模型业务评价指标

在风控业务中，除对比上文提到的标准评价指标和泛化能力指标以外，我们还会从模型排序性、相同通过率下的逾期率，以及效果与成本平衡的角度评价模型的“好坏”。

模型排序性

在风控模型中，我们对模型排序性的重视程度很高。通常，我们会对模型分进行分箱，理想情况下，按模型分分箱后，样本逾期率是单调变化的，并且各相邻箱之间的逾期率差异较大，这说明模型在各个分数段都有很好的区分能力。我们可以将相邻分箱逾期率跳动点数量作为排序性优劣的评价指标之一。如果随着模型分的增大，逾期率是单调变化的，高分段的逾期率低，低分段的逾期率高，并且没有跳动点，说明该模型的排序性良好。在不同使用场景下，我们关注排序性的位置可能不同。例如，对于针对老客户的贷前准)模型，一般情况下，策略中设置的通过率比较高，假设通过率为80%，在这种情况下，我们关注的是模型在80%通过率附近的排序性；而对于新客户，通过率一般设置得比较低，在这种情况下，我们关注高分段的模型排序性。

相同通过率下的逾期率

我们通常在特定业务场景下比较模型效果。如针对老客户的贷前准入模型，假设业务中设定的模型通过率为80%，那么，在评价两个模型的好坏时，除比较低分段的模型排序性以外，我们还需要比较 80%通过率下哪个模型的逾期率更低。

效果与成本平衡

在实际业务中，我们建立的模型有些是有成本模型（如加了外部数据源），有些是无成本模型（如仅使用内部数据）。在通常情况下，加入外部数据源的模型效果更佳，而且，加入的外部数据源越多，模型效果越好，但是，成本也随之大幅增加。因此，在评价模型是否适用时，我们还应从效果与成本平衡的角度进行考虑。

模型部署

模型训练通常在本地环境中进行，训练完成后，首先选择最优模型并部署到线上环境，然后验证模型在线上环境运行是否准确无误，确定无误后，才会使用。

PMML格式

预测模型标记语言(Predictive Model Markup Language,PMML)是一套与平台和环境无关的模型表示语言，可实现跨平台的机器学习模型部署。例如对于使用Python开发的模型，在导出为PMML格式后，该模型可以部署在Java线上环境中。

上线验证

模型部署到线上环境中，通常先作为陪跑角色使用，积累到一定样本量时，就可以上线验证。上线验证的目的是确认模型在线上环境中按照预期运行。

我们通常从预测分数的一致性、模型分分布的差异性和模型效果的一致性3个方面进行验证，具体做法如下。

（1）预测分数的一致性：我们取模型“陪跑”后的样本，在线下环境重新预测打分，验证线下分数和线上分数是否一致。若发现不一致，那么需要排查原因，原因通常有线上与线下环境不一致，以及线上计算逻辑有误等。
（2）模型分分布的差异性：我们取建模时和上线“陪跑”后相同口径下的样本，对比模型分分布的差异。以贷前准入模型为例，可先取训练模型时OOT样本所处时间的所有申请样本，并将其作为基准样本；另取模型“陪跑”后线上申请样本，并将其作为验证样本。然后,验证基准样本和验证样本的模型分、特征分布的差异。若差异较大，那么需要排查原因，切勿简单地认为客群偏移所致。常见的模型分分布偏差原因：①取样口径不一致，如基准样本取申请样本，验证样本取授信通过样本；②细分客群比例不同，如相比基准样本，验证样本中，老客户比例大幅增加；③数据和特征问题导致分数计算变化；④策略调整导致客群偏移。
（3）模型效果的一致性：我们取模型“陪跑”后有表现的样本，以及与建模样本相同的标签，验证模型的效果。当模型效果与开发时差异较大时，我们需要排查原因，避免因数据异常而导致模型效果衰减。

上线验证是关键环节，良好的验证可以保证模型的准确性、有效性和稳定性。即使上线过程出现问题我们也能够在第一时间发现并纠正。