智能风控体系之Y定义与样本选择(A卡)

最新推荐文章于 2024-11-17 00:08:27 发布

风控小兵突击

最新推荐文章于 2024-11-17 00:08:27 发布

阅读量1.5k

点赞数 18

分类专栏：智能风控文章标签：人工智能机器学习金融数学建模数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_43420291/article/details/136198212

版权

智能风控专栏收录该内容

32 篇文章

订阅专栏

本文讨论了评分卡模型设计的关键步骤，包括确定Y变量（逾期概率预测）、定义好坏样本、表现期和观察期的选择。通过滚动率矩阵和vintage曲线，作者详细解释了如何定义好、坏、灰客户，并强调了模型训练过程中样本选择的重要性以及使用逻辑回归、Xgboost和LightGBM等模型的应用.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

评分卡模型设计里面，最重要的一环就是Y的定义和好坏样本的选择，即样本范围选择和Y变量确定。一般来说，产品评分卡开发需要有需求、设计、开发、测试、部署上线等过程。需要思考几个问题：

1.需要做几个评分卡模型，根据贷款产品的类型、场景、客群分类、数据可用性进行模型细分。

2.业务目标是什么？例如预测客群贷款后6个月内违约的概率，对违约高风险客户进行拦截。

3好坏客户如何定义，样本如何选择等问题。

为了解决以上的这些问题，需要确定几个内容（业务目标、表现期、观察点、观察期、逾期表现），主要通过滚动率矩阵、vintage曲线、产品制度来最终确定。

▍Y定义

业务目标：预测客群贷款后未来一段时间内可能逾期的概率，拦截逾期概率较高的客群。

好坏定义：通过滚动率矩阵分析，可以确认客群逾期到什么程度再还款的概率极低，一般客群逾期M2+就不再还款。定义坏客户为M2+，好客户为逾期0天。逾期在0~M2之间的客群就是灰客户。

表现期定义：表现期就是vintage曲线未来一段时间内趋于稳定的长度，表现期就是业务放款后客群还款一段时间后，会完全暴露出好坏逾期情况，即需要多久后客群会暴露出好坏表现。例如12期的贷款产品，一般表现期为9期。业务目标就是预测客群贷款后还款9个月内可能逾期的概率。那表现期不足9期的客户就是灰样本。

观察点定义：贷款A卡评分模型的观察点一般就是贷款申请时点。

观察期定义：观察期一般用来提取样本的预测特征变量，观察期一般要长些，一般是近2年，例如部分征信指标为近24个月银行贷款查询次数等。

▍剔除灰样本

1.剔除被前置风控规则命中的样本；

2.剔除表现期特殊客群的样本

3.剔除未提款客群的样本

4.剔除表现期不足9个月客群的样本

5.剔除逾期状态不足M2+客群的样本

注释：另外需要考虑客群是否需要分群建模。

▍样本选择与Y定义

样本一般分为训练集、测试集、时间外验证集，进行模型的训练、参数选择、验证。对于Y目标变量的定义不同，建设出来的A卡评分模型应用场景就会不同，那么选择样本客群就会不一样。评分模型建设前提，就是未来客群样本分布与历史进件的客群样本分布保持一致且独立。评分模型才会有效地准确预测未来进件客群的违约概率。

常见的Y定义，例如A卡根据Y的表现期分前3期（偏欺诈）和前6期、前9期去做不同的组合A卡；坏客户定义历史最大逾期天数15+或30+；基于组合矩阵来进行客户综合的风险评级。对Y变量给予不同的短中长期的表现期，建设不同组合的A卡评分，建设A卡评分矩阵，可以更加精细化管理进件客群。建设评分卡模型主要基于逻辑回归、Xgboost和LightGBM机器学习模型。