概要
三方数据,一般是指外部第三平台依靠长期业务积累然后形成的具有自己特色的进行加工处理过后的数据,常见的有多头借贷的数据,支付数据,信用评分类等数据类型。
三方数据在贷前会发挥着最重要的作用,当一个客户来申请贷款的时候,如果来判断这个客户好和坏呢,除了需要金融机构自己的数据,另外就需要庞大的外部数据。
那么我们要从哪些方面去评价三方数据呢?
如何评价三方数据
- 三率:覆盖率、缺失率、准确率
- 三性:相关性、预测性、解释性
- 三度:区分度、重要度、稳定度
三率
- 覆盖率:已匹配样本数量/分析总样本数量
- 缺失率:特征缺失值样本数量/分析总样本数量
- 准确率:验证一致样本数量/分析总样本数量
三性
- 相关性:特征相关性person,spearman系数等
- 预测性:特征对目标变量的信息贡献度指标IV
- 解释性:特征分布趋势与实际业务理解是否匹配
三度
- 区分度:模型区分度指标KS,AUC,GINI等
- 重要度:特征重要性系数,importance(决策树)
- 稳定度:特征在不同样本的分布稳定性PSI
指标详解
- 覆盖率为已匹配样本占总样本的比值。如果样本包含多个特征,只要有一个特征不为空,即为覆盖。所以覆盖率计算的是总样本扣除特征全部为空的情况。大多数情况下,覆盖率大于90%基本可以满足建模要求。
- 缺失率是单个特征来看的,即样本未匹配特征与总样本量的比值。通常,缺失率小于10%都是可以接受的。
- 准确率是针对核验类特征而言的,如黑名单/信息核对等。准确性衡量的是总体标签与核验类特征的一致性,即标签显示为“好人”,特征也显示为“好人”或标签显示为“坏人”,特征也显示为“坏人”的概率。
- 相关性是指特征与target变量之间的相关关系,常用的相关性指标为皮尔逊相关系数(pearson)/斯皮尔曼相关系数(spearman)。相关系数的取值在-1至1之间,小于零为负相关,大于零为正相关。
- 预测性:特征对目标变量的信息贡献度指标IV
信息值IV(Information Value):表示特征变量对目标变量的贡献程度,IV值越大,说明特征的预测能力越强
IV 值 | Description |
---|---|
iv <= 0.2 | 无预测能力,需舍弃 |
0.02 < iv <= 0.1 | 较弱的预测能力 |
0.1 < iv <= 0.3 | 预测能力一般 |
0.3 < iv <= 0.5 | 预测能力较强 |
iv > 0.5 | 预测能力极强,存在异常,需检查 |
- 解释性:从业务上评估特征的效果,即特征分布趋势与实际业务理解是否匹配。
- 区分度:引入模型的思路来评价特征,可通过KS、AUC、Gini等。将每个待评估的特征与Target构建模型,将模型的指标映射到特征指标来进行分析。
KS是基于经验累积分布函数,常用于评估模型.KS越大,表示正负样本区分度越好。
ks = max{|cum(bad_rate) - cum(good_rate)|}
KS(%) | 好坏区分能力 |
---|---|
20以下 | 不建议采用 |
20 - 40 | 较好 |
41 - 50 | 良好 |
51 - 60 | 很强 |
61 - 75 | 非常强 |
75以上 | 能力过高,存在异常,需检查 |
-
重要度:重要性是指特征对target预测的重要性。可通过决策树模型算法分析每个特征对模型的重要性,可以通过重要性系数importance获得。此系数取值越大,说明特征对模型效果的重要越强。
-
稳定度:特征的稳定度指标,是为了评估特征在不同样本分布的波动性大小,可通过衡量指标为PSI(Population Stability Index),其系数取数越小,代表稳定度越好。
PSI = SUM((实际占比 - 预期占比) * ln(实际占比/预期占比))
PSI范围 | 稳定性 | 建议事项 |
---|---|---|
0 ~ 0.1 | 好 | 没有变化或很少变化 |
0.1 ~ 0.25 | 略不稳定 | 有变化,继续监控后续变化 |
大于0.25 | 不稳定 | 发生大变化,进行特征项分析 |