信用评分

信用评分类型和客户旅程
客户旅程的不同阶段

图1 整个客户之旅的信用评分
可以看出来整个过程中有三个判断语句,这三个阶段分别对应客户的三种评分:
- 申请评分(A卡)在决定是否接受或拒绝申请人时评估新申请人违约的风险。
- 行为评分(B卡)在做出有关账户管理的决策时,例如信用额度,超额管理,新产品等,以评估与现有客户相关的违约风险
- 催收评分(C卡)用于催收策略,用于评估催收中的顾客偿还债务的可能性。

信用风险评分卡

  多年来,实施信用评分的一些不同的建模技术已经发展。它们从参数或非参数,统计或机器学习到有监督或无监督算法。最近的技术包括使用数百或数千种不同模型的高度复杂的方法,各种验证框架和具有多种学习算法的集成技术以获得更好的准确性。
  尽管多样化,但还是有一种突出的建模技术 - 信用评分卡模型。通常称为标准评分卡,它基于逻辑回归作为基础模型。与其他建模技术相比,这种方法可以剔除很多盒子,使其成为从业者中最受欢迎的方法,并被近90%的评分卡开发人员使用。评分卡模型易于构建,理解和实施,并且执行起来很快。作为一种统计/机器学习混合模型,其预测准确度与其他更复杂的技术相当,其分数可直接用作概率估计,从而为基于风险的定价提供直接输入。这对符合巴塞尔协议II监管框架的贷款机构至关重要。评分卡非常直观且易于解释和证明,它在监管机构中被授权为一些国家的独家信用风险建模技术。
  评分卡模型结果由通常以表格形式显示的一组属性(客户特征)组成(图2)。在属性内,加权点(正面或负面)被分配给每个属性的范围值,这些点的总和等于最终的信用评分。
图2 标准评分卡格式


信用评分卡建模方法
一些需要思考的问题:
  • 我如何从区分“好”客户和“坏”客户? 他们是否有支付60,90或180天 - 逾期付款?
  • 当模型预测“坏”/“好”客户时,结果期应该多久?我应该确定那段时间的日期还是长度?
  • 谁应该被纳入分析? 我是否需要排除欺诈性客户或处于“好”和“坏”状态之间的人?
  • 区分“好”客户和“坏”客户的主要特征是什么?
  • ……
模型设计
一个好的模型应该记录以下内容:
  • 分析单位(如客户或产品水平)
  • 人口框架(例如,通过贷款申请人)和样本量
  • 操作性定义(例如,“坏”的定义)和建模假设(例如,排除欺诈性客户)
  • 观察的时间范围(例如过去两年的客户付款记录)和表现窗口,即“坏”定义所适用的时间范围
  • 数据来源和数据收集方法


    据准备和探索性数据分析

      数据准备是任何数据挖掘项目的关键方面,包括信用评分卡的开发。这是最具挑战性和耗时的阶段。 项目总时间中至少70%,有时多于90%专门用于此项活动。 它涉及数据收集,结合多个数据源,聚合,转换,数据清理,“切片和切块”,并查看数据的广度和深度,以获得清晰的理解并将数据量转换为数据质量,从而使我们可以自信地准备下一阶段 - 模型建设。
      数据准备过程从数据收集开始,通常称为ETL过程(Extract-Transform-Load)。 数据集成使用数据合并和串联组合不同的数据源。数据探索和数据清理是相互重复的步骤。 数据探索包括单变量和双变量分析,范围从单变量统计和频率分布到相关性,交叉列表和特征分析。在探索性数据分析(EDA)之后,对数据进行处理以提高质量。数据清理需要良好的业务和数据理解,才能以正确的方式解读数据。 这是一个反复的过程,旨在消除不规则行为,并酌情替换,修改或删除这些不规则行为。数据不干净的两个主要问题是缺失值和异常值; 这两者都会严重影响模型的准确性,因此必须细心干预。
      在决定如何处理缺失值之前,我们需要了解缺失数据的原因并理解缺失数据的分布情况,以便我们可以将其分类为:

  • 随机完整性缺失(MCAR);
  • 随机缺失(MAR);
  • 非随机性缺失(MNAR)。
      缺少数据处理通常假定MCAR和MAR,而NMAR更难以处理。下面的列表提供了按复杂程度排序的常见处理。
    图3 缺失数据处理
      在我们的数据中,异常值是另一种“野兽”,因为它们的存在会违背我们开发模型的统计假设。一旦确定,在应用任何处理之前理解异常值的原因很重要。例如,异常值可能是欺诈检测中有价值的信息来源;因此,用平均值或中值代替它们是一个不好的主意。
      应该使用单变量和多变量分析来分析异常值。对于检测,我们可以使用视觉方法,如直方图,箱形图或散点图和统计方法,如平均值和标准偏差,通过检查远距离聚类,小决策树叶节点,马氏距离,Cook’s D或Grubbs测试。对于什么应该被视为异常值的判断并不像识别缺失值那么简单。决定应基于特定标准,例如:任何超出±3标准偏差或±1.5IQR或第5-95百分位范围的值将被标记为异常值。
      离群值可用与缺失值类似的方式处理。还可以使用其他转换,包括:装箱,重量分配,转换为缺失值,对数变换以消除极值或Winsorization的影响。
      如上所述,数据清理可能涉及实现不同的统计和机器学习技术。尽管这些转换可能会创建更优质的评分卡模型,但实际操作必须考虑到,因为复杂的数据操作可能难以实施,成本高昂并且会降低模型处理性能。
      一旦数据清洗完毕,我们就可以做出更有创意的部分 - 数据转换。数据转换或特征工程是创建附加(假设)模型变量,并对其进行重要性测试。最常见的转换包括分箱和优化分箱,标准化,缩放,热编码,交互项,数学转换(从非线性转换为线性关系,从倾斜数据转换为正态分布数据)以及使用聚类和因子分析进行数据缩减。
      除了关于如何解决这一任务的一些一般性建议之外,数据科学家有责任建议将客户数据签名转化为强大信息人造物的最佳方法 - 挖掘视图。这可能是数据科学家角色中最具创造性和最具挑战性的方面,因为除了统计和分析技能之外,它还需要牢固掌握业务理解。通常,创建好模型的关键不在于具体建模技术的力量,而在于衍生变量的广度和深度,这些变量代表了对被审查现象更高水平的知识。
      下一节:变量选择。。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值