如何对数据进行评估

本文探讨金融机构如何评估新数据源,从线下数据测试、评估指标如缺失率、有效性、稳定性、共线性,到线上测试、A/B测试及数据监控。重点介绍了黑名单、评分类、变量类和原始数据类的评估方法,并强调投入产出评估的重要性。
摘要由CSDN通过智能技术生成

对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。为提升风控水平,会引入新的数据源,面对新数据维度时,一般都会思考两个方面:数据能否用,数据如何用。本篇文章会从线下数据测试、线下数据评价、线上数据应用整个流程介绍如何谨慎的评估一个数据源。
一、线下数据评估
1.1 、不同类型数据源的评估
首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。
黑名单类应用在反欺诈环节,一般通过“命中率”、“逾期率”这两个指标评估数据的有效性。一个好的黑名单应具有的性质是“命中即逾期”,即为保证准确性,黑名单的命中率一般不会很高(5%之内),但只要命中,逾期概率就很高。
评分类的变量直接作为风控策略使用,一般通过“缺失率”“有效性”“稳定性”“与现有数据共线性”“投入产出”这5个方面去评估。当评分具有稳定的排序能力,可用作客户分层或者准入。当评分具有明显的尾部极端趋势,可做准入规则,拦截掉极端的坏客户或者准入极端好客户。
变量类一般考虑策略/模型环节使用,一般通过“缺失率”“有效性”“稳定性”“变量之间的共线性”“与现有数据共线性”“投入产出”去评估。当变量具有稳定的排序能力,考虑建立模型。当变量具有极端趋势且变量含义具有欺诈的性质,可考虑做一条反欺诈的规则。
原始数据类,一般是客户授权爬取的信息,需要做特征工程后评估数据的价值。评估方法同变量类数据。
1.2 、评估指标
(1)缺失率
缺失率是考量数据覆盖程度的指标。根据业务情况和数据的应用场景,确定数据覆盖程度的需求。
(2)有效性
分析单变量的GINI、KS、IV 值、趋势。评分类的变量,一般要求ks>

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据质量进行评估数据质量管理的重要环节。数据质量评估主要是基于数据质量指标和数据质量规则,对数据进行评估和监测,以确保数据的准确性、完整性、一致性、及时性和可靠性。 以下是对数据质量进行评估的一般步骤: 1. 确定数据质量指标:数据质量指标是对数据质量的度量和评估标准,通常包括准确性、完整性、一致性、及时性和可靠性等。根据业务需求和数据特点,确定评估数据质量指标。 2. 制定数据质量规则:数据质量规则是对数据质量指标的具体实现方式,是评估数据的关键。数据质量规则可以通过数据清洗、数据检查、数据验证等方式实现。例如,检查手机号码是否符合格式要求,检查数据是否有重复,检查数据是否存在空等。 3. 获取数据样本:从数据源中获取一定比例的数据样本,通常选择数据变化较大的数据进行评估数据样本的大小和抽样方式也需要根据业务需求进行选择。 4. 进行数据质量评估:对数据样本进行数据质量评估,根据制定的数据质量规则,对数据进行检查和验证,评估数据的质量指标,统计数据质量的指标,例如错误率、缺失率、一致性等。 5. 分析评估结果:对评估结果进行分析,确定数据质量问题的原因和影响,制定数据质量改进方案,例如数据清洗、数据纠正、数据标准化等。 6. 建立数据质量监控机制:建立数据质量监控机制,持续监测数据质量,及时发现和解决数据质量问题,确保数据质量的稳定性和可持续性。 以上是对数据质量进行评估的一般步骤,具体评估过程还需要根据业务需求和数据特点进行调整和完善。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值