1.1 问题描述
本文所用的数据来自拍拍贷“魔镜杯”互联网金融数应用大赛。获取数据 在初赛给出的Master表中,一共包含3万条数据,每个样本包含200多个字段,数据字段已进行脱敏处理,每一行代表一个样本,且对于每个样本已标注出其是否违约。本文主要对Master表中的数据进行机器学习,来预测未来用户的贷款违约情况。
Master表中主要字段及含义如下:
idx:每一笔贷款的unique key。
UserInfo_*:借款人特征字段。
WeblogInfo_*:Info网络行为字段。
Education_Info*:学历学籍字段。
ThirdParty_Info_PeriodN_*:第三方数据时间段N字段。
SocialNetwork_*:社交网络字段。
LinstingInfo:借款成交时间。
Target:违约标签(1 = 贷款违约,0 = 正常还款)。测试集里不包含target字段。
1.2 问题解决思路