信贷风控三:如何搭建知识图谱,赋能信贷业务
脱胎于搜索引擎优化的知识图谱技术,本质上是一种揭示实体关系的信息网络,如今已广泛应用于各个领域。在信贷领域,知识图谱也经常被各家机构标榜为一种先进的大数据应用技术。在流量红利时代成为过去式后,信贷领域会越来越强调对客户的精细化运营,即对客户要做到千人千面的定制化服务和策略,这就要求信贷机构对客户要有360度全景式的把握,不仅要掌握客户的基本信息、行为偏好、金融特征,更要掌握客户间的关联关系和信贷申请行为的聚集性特征,而知识图谱在识别客户关系和聚集性特征方面就有着不可替代的优势。所以今天我们就简单聊一聊关于知识图谱的几个问题,一,如何构建一个契合信贷业务的知识图谱;二,知识图谱在信贷业务中的应用优势有哪些;三,如何应用这项技术去赋能信贷业务;以及四,知识图谱应用中需要注意的一些问题。
一、如何构建知识图谱
1、搭建知识图谱需要哪些数据
搭建知识图谱的目的之一在于完全挖掘出客户间各种错综复杂的关联关系,所以原则上就需要把各种有关联可能的数据都纳入进来。另一方面,我们同样需要把客户的身份标识数据、重要属性特征也纳入进来,便于后续我们对客户关系的分析、回溯及关联变量的加工。所以我们从关联数据、重要属性两个维度展开来讲。
关联数据主要包括这几个维度:
- 手机号码类:包括客户的注册手机号、用款手机号、紧急联系人手机号、配偶手机号、亲属手机号、公司电话、家庭电话、人行报告中近期曾使用电话,以及现在变得异常敏感的通讯录手机号、通话记录手机号等等。这些号码类数据放入知识图谱中便能将客户之间的亲属关系、同单位情况、平时联系紧密度情况反映出来。这些数据放入知识图谱前就要注意号码格式的对齐和脏数据的清洗。
- 银行卡数据:现在信贷业务都会进行n要素验证,一般银行卡都是本人使用,不会出现多人共用一张银行卡的情况,那为什么还要放银行卡数据呢?这要看怎么放,我们在以往的业务中发现了以这样一个团伙欺诈案例,团伙中的几人同时在同一银行各自新办了银行卡用于贷款发放,这就导致这几人申请时的银行卡号是连号的。如果我们将银行卡末几位去掉之后再放到知识图谱里,这种异常银行卡聚集特征就能显现在图谱中了。
- 设备类数据:主要包括注册申请设备和用款设备两类,当然也可以进一步细化到申请每个环节,包括注册首页设备、人脸识别设备、提交申请页设备等等。申请人共用设备是团伙欺诈的一种典型特征,所以是防范欺诈要关注的十分重要的一个维度。
- 单位类数据:包括申请时填写单位、配偶单位、公积金缴纳单位、人行报告中近期曾任职的单位等等,单位类数据虽然包含重要的关联信息,但综合考量也可以不放,主要是这样两个原因,一是内容多为手写,格式混乱,对齐难度很大;二是申请客户在单位上聚集很多不是异常,比如客户经理到一个大企业展业,一段时间搞定十几、几十个客户也很正常。
- 位置类数据:包括申请时的GPS打点位置、用款时的打点位置、单位地址位置、家庭地址位置等等。一般我们会将各种位置转化为同一坐标系下的经纬度,并使用geohash算法将经纬度转化为地理网格后在放入图谱,一般的网格大小为百米乘以百米量级,当然也要根据数据精度和业务需要来确定。
- WIFI数据:包括申请、用款或各个环节埋点取到的WIFI信息,可以将WIFI的bssid做主键放入图谱。
- IP数据:IP数据是否可用仍需调研,一是地址可以自由配置,二是用流量和用WIFI会发生IP变动也不能说明什么,三是之前调研过一些共IP的客户案例,发现并没有实际关联。所以IP可用与否有待考量。
- 其它还包括邮箱地址数据等。
重要属性数据主要包括:
- 身份信息及主键:包括身份证号、姓名、客户申请号、用款号等等。用于我们定位、查询每个客户。
- 时间信息:非常重要!!主要包括申请时间、用款时间。后期需要对图谱及关联变量进行回溯就是要依赖这些时间信息。
- 特征偏好信息:比如年龄、性别、职业、收入、爱好等各种画像标签等等。可用于刻画整个团簇的属性特征,比如一个团簇聚集的几个人都有午夜活跃、网络游戏的特征,那是不是值得我们特别关注一下呢。
- 逾期类信息:包括逾期天数、逾期笔数、当前是否逾期等等。是我们定性聚集团簇性质的重要维度。
- 申请状态及原因:包括通过、放弃、拒绝等状态以及拒绝原因,比如欺诈拒绝、多头拒绝、信用评分拒绝等等,也是刻画团簇性质的重要维度。