目标:基于知识图谱,搭建一个二分类风控模型,来预测一个借款申请进件是否会逾期。
本项目提供了以下的数据文件:
—person.txt:申请人实体数据3000条, 包含了每个申请人的属性,包括姓名、年龄、电话、黑白名单标志等字段
—phone.txt:电话号码实体数据20000条,每一件记录标记给定的电话号码是否在黑名单里
—phone2phone.txt:通话记录关系数据163万,详细的通话记录,包括主叫、被叫、通话开始时间和结束时间等字段
—apply_train.txt:进件信息实体数据5590条,模型训练样本集,最后一个字段是进件的状态,这个数据用于训练模型
—apply_test.txt:进件信息实体数据1400条,模型测试集,里面没有进件状态,这个数据用于测试模型
对数据中的几个属性做简单说明:
—amount:申请人所申请的贷款额度
—term:还贷期限(比如20个月)
—status:进件状态,对于一个进件,可能有多种状态,OVERDUE(逾期),IN_PROGRESS(正在审核中),RETURNING(偿还中),REPAID(已偿还)。为了方便起见,我们把OVERDUE以外的状态都看成正常状态。
—flag:黑/白名单标志
—apply_train.txt中的applicant申请人ID字段,是与person.txt中的申请人ID相对应的
—phone.txt中的电话号码部分存在于person.txt中(即phone.txt中的电话号码与person.txt中的电话号码有部分交集)
题目:请根据给定的上述数据,搭建知识图谱,根据图谱设计一套有效的风控特征,然后利用提取出的特征向量,选择合适的二分类(逾期/非逾期)预测算法,训练出分类模型,并用该模型对测试数据进行分类,给出测试结果,以及模型的衡量指标结果。
具体建模流程
- 导入mysql并分析数据,分析其中的关系得:
(1) people节点与apply节点之间有fill关系;
(2)apply节点与phone节点之间有parent_phone、colleague_phone、company_phone等关系;
(3)people与phone之间有has_phone的关系;
然后通过上述关系,进而可推得如下的关系:
(4)parent_phone的持有人与进件的申请人为parent_of关系,同理可推得colleague_of关系;
(5)通过通话记录可推得两个people节点之间的known关系。
知识图谱关系图: - 数据清洗处理 (pre_deal_data.py)
查看是否有缺失值,异常值,对其进行处理
- 删除:针对缺失值所在行(前提是缺失行的比例非常低,如5%以内) 或删除缺失值所对应变量(前提是该变量中包含的缺失值比例非常高,如70%左右