开发申请评分卡的第一步要做什么

在开发信用申请评分卡之前,最基本面的工作就是梳理理解数据。不要自认为知道这些字段的中文意思、来自哪张数据表就可以了,还要尽可能的去了解这些数据是从生产库怎么生成的,也就是说这些可能用到的变量数据还原到业务中是怎样的衍生过程,当然如果你们是直接从生产库里挑选数据提炼到建模表上,那么恭喜你,可以花更多的时间去梳理整理数据了,建好的模型也会更稳定准确。

现在很多科技数据公司一味的去强调算法、大维度变量,但却忽略了业务数据的理解,做出来的模型自然也就与实际业务偏差很大,就算是ks为0.5以上也是很难实际落地。

变量业务理解梳理,尽管很繁琐,却尤为重要。

举个例子

对于现在很流行的现金贷业务,客户申请的三基本要素:姓名,身份证、手机号(不要傻傻认为申请时只要你三要素,这是个幌子,通过用户授信、SDK抓取,任何信息都可以拿到,毕竟隐私这种事说说就算了)。

对于一个客户填写了这三要素之后,业务生产库里就会存在name、idcard、phonenumber三个字段去存储每一个申请客户的数据。如果对于建模的你来说,没有权限看到生产库的数据,只有数据仓库给你使用,你从数仓里看到了sex、province、city、sex、Valid_period_of_ID_card等等。这些字段都是从生产库里衍生出来的,有些是业务逻辑需要,有些是报表需求。

就以身份证idcard为例,一个申请客户提供了idcard:440306199005113437,申请时点为2017.10.28,

18位身份证号码各位的含义:
1-2位省、自治区、直辖市代码;
3-4位地级市、盟、自治州代码;
5-6位县、县级市、区代码;
7-14位出生年月日,比如19670401代表1967年4月1日;
15-17位为顺序号,其中17位(倒数第二位)男为单数,女为双数;

根据身份证编码含义,我们就可以在在数仓里衍生出如下字段
这里写图片描述

小科普板块

对于Valid_period_of_ID_card这个变量的衍生,大家首先要知道身份证号的含义,还要去测算申请客户目前是第几代身份证,然后去了解关于身份证法对于身份证有效期的划分标准,最后根据客户申请时点去测算他目前的身份证还有多长的有效期。

Valid_period_of_ID_card这个衍生变量可以在策略规则和建模中使用,比如身份证有效期较短的客群通过历史数据分析发现在公司cash loan中大占比为骗贷客户,策略引擎里已经设置了强拒绝规则,那么我们在建模的时候,就要把身份证有效期超出相应规则界限的客群剔除掉,直接排除这部分数据进入评分卡模型的训练样本,可以很好的排除这部分客群对模型的干扰,提升模型的区分好坏能力。

回归正题

假如现阶段公司现金贷业务限定只给予年龄在20-35岁,非广东区域的客户进行放款,产品业务已经明确了各个维度的限制,那么我们在数据导入前,在了解了衍生变量的业务逻辑之后,很明确的知道这个申请客户是不可能进行贷款的,不满足业务要求的客群也是应该通过相关变量进行排除的,这就是我想跟大家聊的梳理理解数据的重要性。

理清数据的来源,也才能更方便的让我们脑洞大开地去创造变量!

一句话概要:数据建模评分卡,业务理解是第一

更多金融风控知识,请关注【金融科技应用学苑】公众号

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值