风控三方数据质量

Ruby—101

已于 2024-03-24 23:38:22 修改

阅读量1.2k

点赞数 16

文章标签： python 跳槽笔记经验分享

于 2024-03-17 19:58:14 首次发布

本文链接：https://blog.csdn.net/Joanmy/article/details/136784622

版权

本文详细探讨了如何评价第三方数据在信贷评估中的价值，包括覆盖率、缺失率、准确率以及相关性、预测性、解释性、区分度、重要度和稳定度等关键指标。通过这些指标，金融机构可以更好地理解和利用外部数据支持贷前决策。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三方数据，一般是指外部第三平台依靠长期业务积累然后形成的具有自己特色的进行加工处理过后的数据，常见的有多头借贷的数据，支付数据，信用评分类等数据类型。

三方数据在贷前会发挥着最重要的作用，当一个客户来申请贷款的时候，如果来判断这个客户好和坏呢，除了需要金融机构自己的数据，另外就需要庞大的外部数据。

那么我们要从哪些方面去评价三方数据呢？

三率

三性

三度

覆盖率为已匹配样本占总样本的比值。如果样本包含多个特征，只要有一个特征不为空，即为覆盖。所以覆盖率计算的是总样本扣除特征全部为空的情况。大多数情况下，覆盖率大于90%基本可以满足建模要求。
缺失率是单个特征来看的，即样本未匹配特征与总样本量的比值。通常，缺失率小于10%都是可以接受的。
准确率是针对核验类特征而言的，如黑名单/信息核对等。准确性衡量的是总体标签与核验类特征的一致性，即标签显示为“好人”，特征也显示为“好人”或标签显示为“坏人”，特征也显示为“坏人”的概率。
相关性是指特征与target变量之间的相关关系，常用的相关性指标为皮尔逊相关系数(pearson)/斯皮尔曼相关系数（spearman）。相关系数的取值在-1至1之间，小于零为负相关，大于零为正相关。
预测性：特征对目标变量的信息贡献度指标IV

信息值IV（Information Value）：表示特征变量对目标变量的贡献程度，IV值越大，说明特征的预测能力越强

KS是基于经验累积分布函数，常用于评估模型.KS越大，表示正负样本区分度越好。
ks = max{|cum(bad_rate) - cum(good_rate)|}

重要度：重要性是指特征对target预测的重要性。可通过决策树模型算法分析每个特征对模型的重要性，可以通过重要性系数importance获得。此系数取值越大，说明特征对模型效果的重要越强。
稳定度：特征的稳定度指标，是为了评估特征在不同样本分布的波动性大小，可通过衡量指标为PSI（Population Stability Index），其系数取数越小，代表稳定度越好。

PSI = SUM((实际占比 - 预期占比) * ln(实际占比/预期占比))