目录
模型设计是评分卡模型开发全流程中最核心的环节,模型的顶层设计决定了建模的具体思路和方案,模型设计的质量直接决定了模型效果、性能和应用价值
模型设计简介
模型设计的定义
一般来说,产品开发大致遵循需求、设计、开发、测试、投产等流程,评分卡模型开发亦如此,模型设计是模型开发全流程的关键环节。多数情况下我们构建的是预测类模型,需要重点确定如下问题。
- 1)需要做几个模型,一般可按客户、产品或数据可用性进行模型细分。
- 2)样本如何提取。
- 3)Y变量如何定义。
- 4)模型原型如何选择(如评分卡、决策树、XGBoost、LightGBM)。
以上4项是模型开发依赖的要素,我们需要按此设计逻辑构建建模宽表并选择模型。模型设计工作输入的是原始数据和业务需求,输出的是建模宽表。
模型设计的工作内容
评分卡模型开发基于宽表,宽表的核心构成要素包括样本(行)、特征(列)和Y变量(列),模型设计主要关注“样本”和“Y变量”,即样本范围的确定和Y变量的定义,并不需要关注特征变量本身。评分卡模型设计涉及环节如下:
工作内容 | 详细说明 |
排除规则与样本范围 | 从业务角度和数据角度看,有一些样本是需要排除的,这些样本在未来模型 上线后不参与模型评分 |
模型细分 | 从业务角度和数据角度考虑模型细分方案,模型细分会对不同产品、不同群 体、不同渠道等分开建模,从而有效提升风险区分能力 |
表现期定义与vintage分析 | 确定表现出好、坏的时长,需要根据具体业务要求,结合类似“账龄分析” 等分析手段来确定 |
目标定义与滚动率分析 | 确定好、坏、不确定样本的定义标准,需要根据具体业务要求,结合类似 “滚动率分析”等分析手段来确定 |
观察期定义与逾期趋势分析 | 基于汇总计数结果,根据具体业务要求,结合类似“趋势分析”等分析手段来确定。一般情况下,建模样本量需要达到一定数量,并且业务没有发生根本性改变 |
模型设计汇总计数 | 在确定了排除规则和目标定义(即EBIG定义)之后,汇总统计在每个观察点 的排除样本以及好、坏、不确定样本的数量 |
排除规则与样本范围
简介
确定样本范围,即未来模型上线后需要用模型打分的样本范围,不在此范围的样本均属于排除样本。
排除规则按照实施阶段分为观察期排除和表现期排除。
- 1)观察期排除是未来模型上线后在打分时点即可确定的不需要用模型打分的样本,包括产品排除、特殊客群排除、政策准入排除等。
- 2)表现期排除是未来模型上线后仍需要使用模型打分但不参与模型训练的样本,即对于模型训练过程而言,诸如表现期不足、灰度表现等样本不需要参与模型训练。
不同的评分卡模型(A卡、B卡、C卡、F卡、营销评分、收益评分、流失评分等)的排除规则不同,在制定排除规则时,需要对建模目的和目标有准确的理解。
A卡模型排除规则
参考时点与预测目标
申请评分卡模型的参考时点是贷款申请时点,预测放款后表现期内的逾期表现。申请评分卡模型通常用于贷款准驳决策。
打分范围
申请评分卡打分的样本范围一般是经前置高风险规则判断为“通过”并且不属于观察期排除的样本。
对于申请评分卡,需要考虑的特殊因素是与前置风险规则的关系。一般来说,在决策系统执行评分卡模型之前及之后会运行前置规则,包括身份核验类规则、政策性准入类规则、黑名单多头借贷类规则、高风险类规则。在构建申请评分卡模型时,进入评分卡模型的打分样本是通过前置规则的样本。
排除规则
阶段 | 类别 | 排除细项 |
观察期排除 | 产品排除 | 特殊产品,例如特殊卡种(学生卡、公务报销卡、白金卡等高级别VIP卡等)和不需要行方承担风险也不需要走评分卡打分的产品(住房公积金贷款等) |
客群排除 | 对于特殊类别客户,通常执行特殊审批流程,例如VIP客户 | |
政策类规则排除 | 不符合信贷审批政策和规则的客户 | |
表现期排除 | 不确定样本(建模时排除而实施时不排除) | 不确定样本是指:1)没有表现,例如未提款或无表现;2)虽有表现但表现期不足X个月;3)表现期足,但不满足好坏样本定义,即轻度逾期的灰样本 |
上述排除规则是最严谨的做法,虽然一般来说,经过上述排除规则排除掉的样本量占比不大(通常在10%以内),即便不排除,对模型训练也不会产生显著影响,但从建模逻辑严谨性角度考虑,仍然建议按照上述规则严格执行。
下篇继续
print('今日大吉')