机器学习kaggle案例:风控评分卡模型(Give_Me_Some_Credit)

kaggle链接:https://www.kaggle.com/c/GiveMeSomeCredit
ipynb文件:https://github.com/824024445/KaggleCases

一、简介

kaggle上经典的风控模型:通过预测未来两年内某人将面临财务困境的可能性,提高信用评分的现有水平

1.1 比赛描述

银行在市场经济中起着至关重要的作用。他们决定谁可以获得融资以及在什么条件下获得投资决策。要使市场和社会发挥作用,个人和公司需要获得信贷。

信用评分算法,用于猜测违约概率,是银行用来确定是否应该授予贷款的方法。

该竞赛要求参与者通过预测某人在未来两年内遇到财务困境的可能性来改进信用评分的现有技术水平。

本次竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。 250,000名借款人提供历史数据,奖金池为5,000美元(第一名为3,000美元,第二名为1,500美元,第三名为500美元)。

1.2 比赛评估

使用AUC(Area Under
ROC Curve)作为性能性能评估标准。意思是ROC曲线下的面积

ROC全称是受试者工作特征。横坐标是假正例率(False Positive
Rate),纵坐标是真正例率(True Positive
Rate)

替代文字
替代文字
替代文字

1.3 数据描述

数据字典(取自Data Dictionary.xls文件):

在这里讲一下,kaggle每个竞赛都会提供

  • 数据字典(可能是在介绍中也可能是单独提供一个数据字典文件,就像这个案例一样)
  • 一个训练集
  • 一个测试集(不含目标值)
  • 一个提交文件的示例(本案例就是sampleEntry.csv文件)
Variable Name Description Type
1 SeriousDlqin2yrs(目标值) 是否有超过90天或更长时间逾期未还的不良行为 Y/N(0为好1为坏)
2 RevolvingUtilizationOfUnsecuredLines 可用额度比值 percentage
3 age 年龄 integer
4 NumberOfTime30-59DaysPastDueNotWorse 逾期30-59天笔数 integer
5 DebtRatio 还款率(每月偿还债务,赡养费,生活费用). percentage
6 MonthlyIncome 月收入 real
7 NumberOfOpenCreditLinesAndLoans 信贷数量 integer
8 NumberOfTimes90DaysLate 逾期90天笔数 integer
9 NumberRealEstateLoansOrLines 固定资产贷款量 integer
10 NumberOfTime60-89DaysPastDueNotWorse 逾期60-89天笔数 integer
11 NumberOfDependents 家属数量 integer

1.4 行业知识补充

信用评分模型的书:陈建的《信用评分模型与应用》

风控模型:先说分类,本文评分卡模型属于A卡申请者评级模型

信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。

A卡,又称为申请者评级模型,个人用户申请相应的金融产品,对用户进行筛选分类,区分好坏用户,据此决定是否通过申请。在获客过程中用到的信用风险模型。从模型的角度来看,它会对用户未来一定周期内的逾期风险作预测,即模型会在用户授权的情况下收集用户多维度的信息,以此来预测逾期概率。预测的逾期概率被用于风控策略或者转换成信用评分,比如国外经典的FICO评分,国内的蚂蚁信用评分、京东小白评分、携程金融的程信分等。A卡评分除了用于决定是否通过用户的信用申请,还用于风险定价,比如额度、利率等

B卡,又称为行为评级模型,在用户使用金融产品的过程中,根据用户的历史使用的行为数据对用户进行评级,对可能出现的逾期、延期等行为进行预测。用户拿到信用额度后,模型根据用户的贷中行为数据,进行风险水平的预测。本质上讲,这个模型是一个事件驱动的模型,在互联网金融领域,一般会比A卡的预测时间窗口要短,对用户的行为更为敏感。B卡除了可以用于高风险用户的拦截,也可以作为额度、利率调整的重要参考因素。

C卡,又称为催收评级模型,对业务中的存量客户是否需要催收进行预测。例如当用户出现逾期时,机构应该先催谁,或者哪些用户不用催,就自动会把钱还回来。催收模型一定程度节约催收成本,提高回催率。

F卡,又称为欺诈评级模型,对业务中的新用户可能存在的欺诈行为进行预测。根据用户提交的材料进行身份核实,确保用户不存在欺诈行为;

风控建模所使用的客户数据主要分为:(1)信贷数据,(2)资质数据,(3)消费数据,(4)行为数据。

替代文字

风控中常用的模型
替代文字

就先补充这么多吧。跟细致的以后再写。

二、代码

2.1 获取数据

2.1.1 下载数据

我写了一个小函数来实现数据的下载,数据全都是官网原版数据,我存到了我的github上。(https://github.com/824024445/KaggleCases)

所有数据都下载到了你当前文件夹下的datasets文件下,每个案例涉及到的数据全部下载到了以该案例命名的文件夹下。

我所有的kaggle案例的博客,下载数据均会使用这个函数,只需要修改前两个常量即可。
> 注&#x

  • 7
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值