零基础入门金融风控-贷款违约预测

最新推荐文章于 2022-02-11 10:48:08 发布

qq_47506661

最新推荐文章于 2022-02-11 10:48:08 发布

阅读量553

点赞数

文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/qq_47506661/article/details/108610085

版权

零基础入门金融风控-贷款违约预测

非常开心能和各位大佬一起学习一起进步，作为小白，今天在这里记录本次课程的点点滴滴。

赛题描述

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。

赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。

赛题数据描述

赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

字段描述

字段	字段描述	字段分析
id	为贷款清单分配的唯一信用证标识	唯一id
loanAmnt	贷款金额	贷款金额越高违约风险越高
term	贷款期限（year）	贷款年限越长，风险越大
interestRate	贷款利率	和风险成正比，风险越高，利率越高
installment	分期付款金额	–
grade	贷款等级	贷款等级，关键因素，越次级贷，违约风险越高
subGrade	贷款等级之子级	细分等级，同上
employmentTitle	就业职称	–
employmentLength	就业年限（年）	在一定范围内，工作年限越高，偿贷能力越高
homeOwnership	借款人在登记时提供的房屋所有权状况	抵押物，越多违约风险越低
annualIncome	年收入	偿债能力指标之一
verificationStatus	验证状态	–
issueDate	贷款发放的月份	–
purpose	借款人在贷款申请时的贷款用途类别	不同用途应该会影响放贷情况，不明确
postCode	借款人在贷款申请中提供的邮政编码的前3位数字	高收入地区是否违约风险更低
regionCode	地区编码	同上
dti	债务收入比	关键指标之一
delinquency_2years	借款人过去2年信用档案中逾期30天以上的违约事件数	–
ficoRangeLow	借款人在贷款发放时的fico所属的下限范围	–
ficoRangeHigh	借款人在贷款发放时的fico所属的上限范围	–
openAcc	借款人信用档案中未结信用额度的数量	–
pubRec	贬损公共记录的数量	–
pubRecBankruptcies	公开记录清除的数量	–
revolBal	信贷周转余额合计	–
revolUtil	循环额度利用率，或借款人使用的相对于所有可用循环信贷的信贷金额	–
totalAcc	借款人信用档案中当前的信用额度总数	–
initialListStatus	贷款的初始列表状态	–
applicationType	表明贷款是个人申请还是与两个共同借款人的联合申请	两个人风险比一个低
earliesCreditLine	借款人最早报告的信用额度开立的月份	–
title	借款人提供的贷款名称	–
policyCode	公开可用的策略_代码=1新产品不公开可用的策略_代码=2	–
n系列匿名特征	匿名特征n0-n14，为一些贷款人行为计数特征的处理	–