文 | 傅一平
源 | 与数据同行
无论是金融、互联网企业亦或运营商,都在基于多年积累的大数据搭建个人征信评分体系,不仅用于自身,也在提供给其他征信机构做为个人信用评估标准。
那么,个人的信用分到底是如何计算出来的呢?
笔者相信不同的信用分有不同的计算方法,无论是FICO评分、芝麻信用亦或其它信用分,这些评分既可以很简单,也可以很复杂,使用的建模方法各不同,但也总是会遵循一些基本的原则,这里笔者就信用分计算的一些关键技术作简要介绍,希望于你有益。
一、业务分析
我们在构建信用评分的时候,首先当然要定义何谓信用高,何谓信用低的用户,这是建模的起点,银行会基于用户的还贷历史来确定高低信用用户,但如果是第三方企业,则需要基于自身的业务特点定义出类似的高低信用用户,即正负样本,比如运营商可能会基于通信欠费来确定高低信用用户的样本,当然这也是远远不够的,需要从更多的途径获取,比如可以免费获取法院公示的老赖名单等。
二、变量初选
身份特征、消费能力、信用历史、行为偏好及人脉关系是当前业界评估信用的五个方面,很多信用评分体系都基于此而来,当然,不同行业由于数据不同,因此形成的具体明细指标肯定也有明显的差异,比如针对身份特征,可能选择的具体指标包括婚姻、年龄、职业、性别等等,诸如运营商可以有几十个指标来表征身份特征,五个方面的涉及的具体指标更是多达上百个,因此,关键的下一步就是如何删选合适的变量。
三、特征删选
很多新手喜欢用越多的变量来建模,以