风控三方数据质量

本文详细探讨了如何评价第三方数据在信贷评估中的价值,包括覆盖率、缺失率、准确率以及相关性、预测性、解释性、区分度、重要度和稳定度等关键指标。通过这些指标,金融机构可以更好地理解和利用外部数据支持贷前决策。
摘要由CSDN通过智能技术生成

概要

三方数据,一般是指外部第三平台依靠长期业务积累然后形成的具有自己特色的进行加工处理过后的数据,常见的有多头借贷的数据,支付数据,信用评分类等数据类型。

三方数据在贷前会发挥着最重要的作用,当一个客户来申请贷款的时候,如果来判断这个客户好和坏呢,除了需要金融机构自己的数据,另外就需要庞大的外部数据。

那么我们要从哪些方面去评价三方数据呢?

如何评价三方数据

  • 三率:覆盖率、缺失率、准确率
  • 三性:相关性、预测性、解释性
  • 三度:区分度、重要度、稳定度

三率

  • 覆盖率:已匹配样本数量/分析总样本数量
  • 缺失率:特征缺失值样本数量/分析总样本数量
  • 准确率:验证一致样本数量/分析总样本数量

三性

  • 相关性:特征相关性person,spearman系数等
  • 预测性:特征对目标变量的信息贡献度指标IV
  • 解释性:特征分布趋势与实际业务理解是否匹配

三度

  • 区分度:模型区分度指标KS,AUC,GINI等
  • 重要度:特征重要性系数,importance(决策树)
  • 稳定度:特征在不同样本的分布稳定性PSI

指标详解

  1. 覆盖率为已匹配样本占总样本的比值。如果样本包含多个特征,只要有一个特征不为空,即为覆盖。所以覆盖率计算的是总样本扣除特征全部为空的情况。大多数情况下,覆盖率大于90%基本可以满足建模要求。
  2. 缺失率是单个特征来看的,即样本未匹配特征与总样本量的比值。通常,缺失率小于10%都是可以接受的。
  3. 准确率是针对核验类特征而言的,如黑名单/信息核对等。准确性衡量的是总体标签与核验类特征的一致性,即标签显示为“好人”,特征也显示为“好人”或标签显示为“坏人”,特征也显示为“坏人”的概率。
  4. 相关性是指特征与target变量之间的相关关系,常用的相关性指标为皮尔逊相关系数(pearson)/斯皮尔曼相关系数(spearman)。相关系数的取值在-1至1之间,小于零为负相关,大于零为正相关。
  5. 预测性:特征对目标变量的信息贡献度指标IV

信息值IV(Information Value):表示特征变量对目标变量的贡献程度,IV值越大,说明特征的预测能力越强

IV 值Description
iv <= 0.2无预测能力,需舍弃
0.02 < iv <= 0.1较弱的预测能力
0.1 < iv <= 0.3预测能力一般
0.3 < iv <= 0.5预测能力较强
iv > 0.5预测能力极强,存在异常,需检查
  1. 解释性:从业务上评估特征的效果,即特征分布趋势与实际业务理解是否匹配。
  2. 区分度:引入模型的思路来评价特征,可通过KS、AUC、Gini等。将每个待评估的特征与Target构建模型,将模型的指标映射到特征指标来进行分析。

KS是基于经验累积分布函数,常用于评估模型.KS越大,表示正负样本区分度越好。
ks = max{|cum(bad_rate) - cum(good_rate)|}

KS(%)好坏区分能力
20以下不建议采用
20 - 40较好
41 - 50良好
51 - 60很强
61 - 75非常强
75以上能力过高,存在异常,需检查
  1. 重要度:重要性是指特征对target预测的重要性。可通过决策树模型算法分析每个特征对模型的重要性,可以通过重要性系数importance获得。此系数取值越大,说明特征对模型效果的重要越强。

  2. 稳定度:特征的稳定度指标,是为了评估特征在不同样本分布的波动性大小,可通过衡量指标为PSI(Population Stability Index),其系数取数越小,代表稳定度越好。

PSI = SUM((实际占比 - 预期占比) * ln(实际占比/预期占比))

PSI范围稳定性建议事项
0 ~ 0.1没有变化或很少变化
0.1 ~ 0.25略不稳定有变化,继续监控后续变化
大于0.25不稳定发生大变化,进行特征项分析
  • 16
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值