一、问题定义
金融的核心是风险控制。自然而然地,AI的主战场也变成了如何使用AI技术精准的做风险控制。
在风控领域,有一个很重要的问题是:如何通过用户的信息来判断用户的逾期与否?
我们通过收集用户的基本信息、地域信息、社交信息等来判断一个人的逾期概率。
我们的问题是:基于用户相关的信息来预测此用户是否违约。
数据如下:https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1
二、ROC与AUC
特征工程:
第一、很多特征存在大量的缺失值。那这些特征怎么办呢? 删掉呢,还是保留呢? 如果删掉,什么样的特征需要删掉呢?
对于此问题,我们可以设计一些规则。比如我们总共有100个样本,如果一个特征在超过60%以上的样本上都是NAN,可以删掉这个特征。具体的阈值可以通过可视化的方式来选择的。
第二、样本本身具有大量的缺失值。对于这个问题在第一部分也说过一次。一个简单的处理方式是:假如一个样本包含了超过50%以上的值为NAN,可以删掉此样本。
第三、在数据中有一些关于城市的数,而且城市本身对于逾期率还是有着很强的相关性。
比如某些地区的借款人,逾期率就会比其他地区的人高。所以这个特征本身是有价值的。但是除了头部几个城市跟逾期率有很大关系,剩下的许许多多城市倒是没有太大的关系。
对于这样的特征我们可以采用二值化的处理。举个例子,如果我们发现城市A,城市B,城市C, 城市D的逾期率较高。那么,我们可以