金融风控项目

本文探讨了如何使用AI技术进行金融风险控制,重点在于预测用户违约。通过对用户信息的分析,包括基本信息、地域信息和社交信息,构建预测模型。介绍了特征工程的处理方法,如处理缺失值、二值化城市特征、字符串清洗和衍生特征创建。此外,讨论了特征选择和模型评估,使用AUC作为主要评估标准,并针对样本不平衡问题提出了过采样和欠采样的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、问题定义

金融的核心是风险控制。自然而然地,AI的主战场也变成了如何使用AI技术精准的做风险控制。

在风控领域,有一个很重要的问题是:如何通过用户的信息来判断用户的逾期与否

我们通过收集用户的基本信息、地域信息、社交信息等来判断一个人的逾期概率。

我们的问题是:基于用户相关的信息来预测此用户是否违约

数据如下:https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1

 

二、ROC与AUC

特征工程:

第一、很多特征存在大量的缺失值。那这些特征怎么办呢? 删掉呢,还是保留呢? 如果删掉,什么样的特征需要删掉呢?

对于此问题,我们可以设计一些规则。比如我们总共有100个样本,如果一个特征在超过60%以上的样本上都是NAN,可以删掉这个特征。具体的阈值可以通过可视化的方式来选择的。

 

 

第二、样本本身具有大量的缺失值。对于这个问题在第一部分也说过一次。一个简单的处理方式是:假如一个样本包含了超过50%以上的值为NAN,可以删掉此样本。

 

 

第三、在数据中有一些关于城市的数,而且城市本身对于逾期率还是有着很强的相关性。

比如某些地区的借款人,逾期率就会比其他地区的人高。所以这个特征本身是有价值的。但是除了头部几个城市跟逾期率有很大关系,剩下的许许多多城市倒是没有太大的关系。

对于这样的特征我们可以采用二值化的处理。举个例子,如果我们发现城市A,城市B,城市C, 城市D的逾期率较高。那么,我们可以

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值