金融风险管理:赛题理解

数据分析四大步骤
在这里插入图片描述

赛题:以预测用户贷款是否违约为任务。数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

赛题数据
在这里插入图片描述

初始特征有许多,部分展示如下。
在这里插入图片描述
评价标准:提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。

提交前请确保预测结果的格式与下述中的格式一致,以及提交文件后缀名为csv。
id,isDefault
800000,0.5
800001,0.5
800002,0.5
800003,0.5

赛题理解:本赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的二分类问题,是金融风控中最基础的业务背景。

二分类有很多模型可以选择,这里先看看评价指标的意思和数据的处理。

AUC
Area Under Curve,是说的ROC曲线 下与坐标轴围成的面积。

先看混乱矩阵:
(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

在这里插入图片描述
ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值