第三方数据是指金融机构为了更好的识别用户的风险接入的其他公司的数据,常用的三方数据形式为:征信,多头,黑名单,社保,公积金,评分卡等。数据获取成本也是多种多样,有免费的,也有收费的。收费的形式,有查得收费,查到收费,或包月包年等,金融机构可根据自己的诉求,以合理的收费标准接入到想要的数据,达到共赢的效果。数据接入流程主要分以下几个步骤:第三方数据产品内容介绍/数据测试与评估/合作方式沟通与协议签署/数据接入与监控。
1 数据产品内容介绍:
不同的数据商家有不同的数据积累,根据经验加工可以适应信贷使用,经过第三方数据产品的商务介绍该公司的风控数据后,风控策略经理会根据自己的业务场景,选择适合公司的数据内容,在这个过程中,双方协商好测试规范和保密协议等条文,就可以进行下一步数据的测试与评估;
- 数据测试与评估:
双方沟通好后,就进入测试的环节。在测试的过程中,我们按照测试的需要提供好测试名单,测试名单的提供需要随机性,代表性和针对性等特点。也就是说在测试之前需要了解我们测试的目标以及希望的效果。提供好测试数据后,待测试结果返回,我们需要测试数据进行评估。在测试之前,我们先来说一下混淆矩阵。
- 测试数据的三率:
1).覆盖率,即测试总样本作为分母,分子为测试总样本中,有返回的值作为分子。
2).缺失率,即测试总样本作为分母,分子为测试总样本中,有返回且值为空的作为分子。
3).准确率,是指返回的样本中,准确预测测试样本的率值。
2.测试数据的三性:
1).相关性:反映特征与目标变量之间的关系,如社保基数缴纳数据与用户还款能力直接的关系。常用的方法皮尔逊相关系数
2).预测性:主要是对单个特征进行分箱,然后算出IV值大小,IV一般大于0.1就可以使用。
3).可解释性:如评分率数据,取趋势是否符合业务理解
3 预测数据的三度:
1).区分度:反映好坏客户的区分能力,常用的方法如:KS/ROC等,一般贷前ROC达到0.65基本上就可以使用。
2).重要度:重要性指标主要是反映在模型中的贡献,常用在树模型
3).稳定度:反映测试样本和未来真实样本的偏差,常用的指标如PSI。
2.4 9个指标的评估:
对上面的9个指标进行评估后,综合收益等方面的影响后,来判断是否进行接入。
3.协议签署
若打算数据进行接入后,就会进入这个步骤,开始签署详细的条款协议,签署完后就可以进行下一步的接口连接与上线监控。
彩蛋环境引用一个知识点的理解:
附件:混淆矩阵
混淆矩阵是一个预测值和实际值交叉形成的矩阵,如图1-1所示。通过这个矩阵,我们可以清晰的计算出评价指标:
Note:
TP:实际值为真,预测值为真
FN:实际值为真,预测值为假
FP:实际值为假,预测值为真
TN:实际值为假,预测值为假
1).准确率(Accuracy)=TP+TN/(TP+FN+FP+TN)
A.反映整体样本的预测能力
B.对于坏账率或反欺诈率很低的场景,本指标没有意义,因为本身坏样本就很低。
2).精准率(Precision)=TP/(TP+FP)
A.反映预测为坏的样本中,有多少确实是坏的占比。
3).召回率(Recall)=TP/(TP+FN)
A.反映真实的坏样本中,识别出为坏的占比。
4).F1=2*Precision*Recall/(Precision+Recall)
A.反映精准率和召回率指标的效果
B.假设精准率和召回率权重一样