风控算法大赛解决方案分享

风控小兵突击

于 2024-01-11 19:59:14 发布

阅读量1k

点赞数 15

分类专栏：智能风控文章标签：算法机器学习支持向量机金融

本文链接：https://blog.csdn.net/weixin_43420291/article/details/135537632

版权

拍拍贷“魔镜风控系统”从平均400个数据维度评估用户当前的信用状态，给每个借款人打出当前状态的信用分，在此基础上再结合新发标的信息，打出对于每个标的6个月内逾期率的预测，为投资人供关键的决策依据。本次竞赛目标是根据用户历史行为数据来预测用户在未来6个月内是否会逾期还款的概率。

项目总体思路

本文将为您介绍我们在数据处理过程中所采用的方法，从数据清洗到特征工程再到特征选择，最终进行模型设计与分析。在数据清洗阶段，我们采用多维度处理缺失值、剔除离群点以及处理字符和空格等方法。随后，我们进行特征工程，包括构建地理位置信息特征、成交时间特征、类别特征编码、组合特征构建以及提取UpdateInfo和LogInfo表的特征。接着，我们使用xgboost进行特征选择，该过程会对特征进行排序以确定其重要性。考虑到数据存在类别不平衡现象，我们采用代价敏感学习和过采样两种方法进行处理，其中重点介绍过采样方法的应用。最后，我们选择了逻辑回归模型、数据挖掘比赛中的强力选手xgboost以及大规模svm方法进行模型设计与分析，并取得了令人满意的结果。此外，我们还探索了模型融合的方法。

1. 数据清洗

在征信领域，用户信息的完善程度对其信用评级有重要影响。一位信息完善程度为100%的用户相比信息完善程度只有50%的用户，更容易通过审核并获得借款。为了更好地处理这一问题，我们进行了多维度的缺失值分析和处理。我们首先按照属性统计了每列缺失值的数量，并进一步计算了各列的缺失比率。下图（图 1）展示了含有缺失值的属性及其相应的缺失比率。

根据分析结果，发现WeblogInfo_1和WeblogInfo_3的缺失值比率高达97%，这两列属性基本上没有携带有用的信息，因此我们可以直接剔除它们。而UserInfo_11、UserInfo_12和UserInfo_13的缺失值比率为63%，这三列属性是类别型的，我们可以将缺失值用-1填充，将其视为另一种类别。至于其他缺失值比率较小的数值型属性，我们可以使用中值进行填充。

接下来，我们按照每个样本的属性缺失值个数进行统计，并将其从小到大排序。以序号为横坐标，缺失值个数为纵坐标，绘制了下图（图2）中