如何对数据进行评估

本文探讨金融机构如何评估新数据源,从线下数据测试、评估指标如缺失率、有效性、稳定性、共线性,到线上测试、A/B测试及数据监控。重点介绍了黑名单、评分类、变量类和原始数据类的评估方法,并强调投入产出评估的重要性。
摘要由CSDN通过智能技术生成

对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。为提升风控水平,会引入新的数据源,面对新数据维度时,一般都会思考两个方面:数据能否用,数据如何用。本篇文章会从线下数据测试、线下数据评价、线上数据应用整个流程介绍如何谨慎的评估一个数据源。
一、线下数据评估
1.1 、不同类型数据源的评估
首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。
黑名单类应用在反欺诈环节,一般通过“命中率”、“逾期率”这两个指标评估数据的有效性。一个好的黑名单应具有的性质是“命中即逾期”,即为保证准确性,黑名单的命中率一般不会很高(5%之内),但只要命中,逾期概率就很高。
评分类的变量直接作为风控策略使用,一般通过“缺失率”“有效性”“稳定性”“与现有数据共线性”“投入产出”这5个方面去评估。当评分具有稳定的排序能力,可用作客户分层或者准入。当评分具有明显的尾部极端趋势,可做准入规则,拦截掉极端的坏客户或者准入极端好客户。
变量类一般考虑策略/模型环节使用,一般通过“缺失率”“有效性”“稳定性”“变量之间的共线性”“与现有数据共线性”“投入产出”去评估。当变量具有稳定的排序能力,考虑建立模型。当变量具有极端趋势且变量含义具有欺诈的性质,可考虑做一条反欺诈的规则。
原始数据类,一般是客户授权爬取的信息,需要做特征工程后评估数据的价值。评估方法同变量类数据。
1.2 、评估指标
(1)缺失率
缺失率是考量数据覆盖程度的指标。根据业务情况和数据的应用场景,确定数据覆盖程度的需求。
(2)有效性
分析单变量的GINI、KS、IV 值、趋势。评分类的变量,一般要求ks>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值