1 前言
前一阵子总结了下自己参加的信贷违约风险预测比赛的数据处理和建模的流程,发现自己对业务上的特征工程认识尚浅,凑巧在Kaggle上曾经也有一个金融风控领域——房贷违约风控的比赛,里面有许多大神分享了他们的特征工程方法,细看下来有不少值得参考和借鉴的地方。
2 赛题和数据简介
这个比赛也是经典的监督学习中的二分类问题,需要我们根据用户的申请信息,征信信息(Bureau)以及用户在该机构的信用历史等信息,预测申请人贷款违约的概率。由于赛题是做贷前预测,所以需要找的特征主要是挖掘客户是否存在欺诈,对于非欺诈用户,他们是否有能力还款、
数据表关系图
赛题的数据分布在几张表里,需要我们做适当的表连接操作:
-
申请表:贷款申请信息,主表,一行代表一个贷款申请id。
-
征信(Bureau)余额表: Bureau信用记录,每行是一个申请用户的月度数据,一个id最多有近96个月的记录
-
申请历史表: 同一用户的历史贷款申请信息,额度,期限,利率,是否审批通过等
-
还款记录表: 同一用户的