评分卡建模基本流程

1. 什么是评分卡

在贷款行业中,评分卡是用于衡量客户的还款能力的打分,也代表了客户未来一段时间内违约/逾期/失联可能性,评分卡分数越高代表客户资质越好,还款能力越强,一个典型的例子就是芝麻信用分。

2. 评分卡分类

根据使用的阶段,评分卡通常可以分为以下几类:

  • 申请评分卡【A卡(Application scorecard)】:在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效排除了信用不良客户和非目标客户的申请
  • 行为评分卡【B卡(Behavior score card)】:在帐户管理期,根据账户历史上所表现出来的各种行为特征来预测该账户未来的信贷表现
  • 催收评分卡【C卡(Collection scorecard)】:在帐户管理期,对逾期帐户预测催收策略反应的概率,从而采取相应的催收措施

三张卡的区别:

  1. 使用的时间不同,分别在贷前、贷中和贷后使用,
  2. 作用不同:A卡对申请客户信息预筛选,B卡侧重于进行风险预警,必要时可以进行额度调整,C卡可以用于调整催收策略
  3. 变量不同,A卡主要使用申请人的背景信息(如客户填写的基础信息以及第三方机构外部信息),B卡会更侧重于交易的变量,C卡会增加贷后的表现等

3.评分卡的优缺点分析

优点:

  • 易于使用:业务人员在操作时,只需要按照评分卡每样打分然后算个总分就能操作,不需要接受太多专业训练
  • 可解释性强:客户和审核人员都能知道看到结果,以及结果是如何产生的

缺点:

  • 信息的使用维度不高:评分卡建模通常会有上千个字段,最后入模变量大约10 ~20个左右,简单是优点,但在日益增长的数据前,就变成缺点。有着大量数据资源却使用有限,造成数据资源的浪费
  • 当信息维度高时,评分卡建模会变得比较困难
  • 需要不断迭代更新:某些不重要的特征,在另一些时刻会变得重要(例如在疫情期间,许多指标的波动性会比较大)模型需要定期监控,更新迭代。

4. 评分卡的建模开发流程

4.1 立项阶段

第一步需要了解应用场景,需要建立什么类型的评分卡,确定建模目标,做好项目规划。

4.2 数据准备阶段

  1. 收集数据
    根据建立的评分卡收集相关数据源,数据可以包括:
    客户基础信息:姓名、证件号、手机号、年龄、学历等
    交易信息:消费能力、理财、出入账情况等
    名单命中情况:自然人身份、失信人、被执行人等
    地理位置:稳定性、所在地区风险程度等
    社交数据:与中高风险用户的关联情况等
    信贷记录:P2P、银行等借贷申请记录、负债情况、还款情况等
    第三方征信数据:人行征信等

  2. 明确定义
    建模之前需要明确以下事项:

    明确什么是好客户、坏客户和灰客户,根据需求定义标签y,是采用M2+还是M3+等,为了提高模型的识别能力,一般剔除灰客户建模;

    明确建模样本的观测窗口和表现窗口;

    明确训练集样本的和测试集样本的分配比例等。

  3. 数据初步清洗

    1. 剔除无效样本
    2. 添加衍生变量
    3. 缺失值处理:缺失值单独成箱分析,不按均值、众数填充,会影响已知数据的信息
    4. 其他清洗步骤

4.3 模型开发阶段

  1. 特征分箱:划分训练集和测试集,对训练集字段进行初步分箱,初步分箱可采用等距分箱、等频分箱、决策树分箱、Best-KS分箱或卡方分箱,由于收集的字段数量较多(通常上千个字段),本阶段的分箱可以不用做的特别细致,如可以先采用10分位数进行分箱,这一阶段的分箱是为了计算相关统计指标用于初步的特征筛选;
  2. 特征值计算:根据分箱结果,计算WOE编码、KS、IV和PSI;
  3. 统计指标筛选:给定阈值,根据缺失率、KS、IV和PSI筛选出一批字段,KS和IV太小,特征没有区分能力,PSI太大字段不够稳定不建议入模;
  4. 相关性筛选:计算相关矩阵,相关系数大于给定阈值的两个特征,保留IV值大的特征,可以思考剔除变量的顺序、IV值相等的情况;
  5. 单调性筛选:经过上面两步筛选,初始变量已大幅被剔除,对通过筛选的变量重新进行更细致的分箱,为保证变量业务上的可解释性,这一轮的分箱需要保证不良率的单调性,即分箱的整体值越大,不良率越高或越低,部分变量可放宽至U型(如年龄),在保证单调性和区分度的基础上尽可能取较大的KS值,对于业务上无法解释的变量进行剔除,往往这一步较耗时;
  6. 模型训练:采用逐步逻辑回归,选择AIC最低的模型;
  7. 参数检查:拟合系数应该全部为正或全部为负(和WOE的计算有关,好/坏 拟合系数应该全为负,坏/好拟合系数应该全为正),如果存在不符合要求特征,可能意味着模型存在多重共线性,建议进行检查并剔除系数不合要求的特征;
  8. 显著性检验:剔除P-value>0.05的变量,完成最后最后入模变量的筛选;
  9. 共线性检验:计算训练集和测试集的VIF(方差膨胀因子),剔除VIF>10的变量
  10. 模型评价:计算训练集和测试集的IV、KS、AUC等
  11. 分数映射:根据映射公式并给定初始值,进行分数的转换
  12. 档位划分:根据需求划分不同等级
  13. 上线部署:模型完成开发,确定入模字段和切分点后上线部署

5. 模型监控

模型上线后,需要定期对模型进行监控,监控指标包括:

  • 模型通过率
  • 各特征稳定性、预测能力
  • 各等级稳定性、预测能力
  • 报错、空跑监控等

6.参考

  1. 三种评分卡模型到底是什么?.
  2. 金融风控评分卡建模全流程!
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 评分在金融领域中广泛应用于信用评估、风险评估和决策支持等方面。而在评分型时,MATLAB是一款强大的工具,可以帮助我们进行数据的处理和型的立。 首先,评分的第一步是准备数据。MATLAB可以方便地导入和处理大量的数据。我们可以利用MATLAB的数据处理函数对数据进行清洗、筛选和补充。同时,MATLAB还提供了强大的可视化工具,可以帮助我们理解和分析数据的特征。 接下来,我们可以利用MATLAB进行特征工程。特征工程是评分中非常重要的一步,它可以提取和构与目标变量相关的特征。MATLAB提供了丰富的函数和工具,可以帮助我们进行特征的选择、转化和组合。这些函数包括特征选择算法、主成分分析、多项式特征和正则化等。 然后,我们可以使用MATLAB评分型。MATLAB提供了多种机器学习和统计型的函数和工具。可以根据实际情况选择逻辑回归、支持向量机、决策树等算法进行。MATLAB还提供了型评估和参数优化的函数,可以对型进行评估和调整,以提高型的准确性和稳定性。 最后,MATLAB还可以帮助我们进行型的部署和应用。可以将立好的评分型整合到实际应用中,进行信用评估、风险评估等工作。MATLAB提供了与其他编程语言和软件的接口,可以方便地与其他系统进行数据交互和型部署。 综上所述,使用MATLAB进行评分可以帮助我们高效地进行数据处理、特征工程、立和型应用。MATLAB提供了丰富的函数和工具,可以满足评分的需求,并帮助我们取得准确和可靠的结果。 ### 回答2: MATLAB评分是一种使用MATLAB软件进行评分的技术。评分是一种常见的信用评估方法,用于预测个人或企业的信用等级。 在MATLAB中,可以使用数据分析和工具箱来创评分型。评分型的核心是根据历史数据和目标变量(如违约行为)构信用评分型,然后将型应用于新的样本数据来预测信用等级。 评分的一般步骤包括: 1. 数据准备:收集相关数据,并进行数据清洗和预处理,如缺失值处理、异常值处理等。 2. 特征工程:根据业务知识和统计分析方法,选择合适的特征,并进行特征变换、选择和构,以提高型的预测能力。 3. :选择合适的算法,如逻辑回归、决策树等,在训练集上拟合型,得到型参数。 4. 型评估:使用验证集或交叉验证等方法评估型的性能,并调整型参数以提高型效果。 5. 型应用:使用优化的评分型对新的数据进行评分,预测信用等级或违约风险。 MATLAB提供了丰富的数据分析和工具,如统计学方法、机器学习算法等,可以有效地支持评分的各个环节。此外,MATLAB还具有灵活的可视化和报告功能,可以帮助用户更好地理解和解释评分型的结果。 总之,MATLAB评分是一种使用MATLAB软件进行评分的技术,可以帮助用户预测个人或企业的信用等级并评估违约风险。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值