前言
本次比赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛,也是本人第一次接触数据科学竞赛,希望通过博客的方式记录学习过程,与大家共同学习、进步!
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
1.1 赛题背景
在金融领域,无论是投资理财还是借贷放款,风险控制永远是是金融业务的核心组成部分,其中信贷风控又是整个风控领域体量最大、挑战最大的类型。
传统的信贷风控主要靠资深从业人员依靠自身的经验设置的专家规则。随着统计学、大数据、机器学习等技术不断渗透,现代信用风控越来越偏向引入AI算法的手段来得以解决风控问题。
简言之,如何基于贷款申请人的数据信息,准确区别违约风险用户,成为金融领域提供更为精准的风控服务的关键。
1.2 数据介绍
本次比赛中使用的数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。具体字段如下所示:
Field |
Description |
id |
为贷款清单分配的唯一信用证标识 |
loanAmnt |