datawhale金融风控day1:赛题理解

1.2.1赛题概况

比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。
赛题以预测金融风险为任务,数据集报名后可见到下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时同步就业标题,目的,邮政编码和标题等信息进行脱敏。

通过这道赛题来引导大家进入金融风控数据竞赛的世界,主要针对于于竞赛新人进行自我练习,自我提高。

1.2.2 数据概况

一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。就是未告知数据列所属的性质的特征列。

train.csv

id为贷款清单分配的唯一信用证标识 loanAmnt贷款金额 term贷款期限(年) interestRate贷款利率 分期付款金额
贷款等级 subGrade贷款等级之子级 职称就业职称 EmploymentLength就业年限(年)
homeOwnership借款人在登记时提供的房屋所有权状况 AnnualIncome年收入 VerificationStatus验证状态
issueDate贷款发放的月份 目的借款人在贷款申请时的贷款用途类别 postCode借款人在贷款申请中提供的索引的前3位数字
regionCode地区编码 dti债务收入比 delinquency_2years借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow借款人在贷款发行时的fico所属的下限范围 ficoRangeHigh借款人在贷款释放时的fico所属的上限范围
openAcc借款人信用档案中未结信用额度的数量 pubRec减损公共记录的数量 pubRecBankruptcies公开记录清除的数量
信贷信贷周转余额合计 revolUtil循环额度最大化,或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc借款人信用档案中当前的信用额度总数 initialListStatus贷款的初始列表状态
applicationType宣布贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine借款人初期报告的信用额度度开立的月份 title借款人提供的贷款名称
policyCode公开可用的策略_代码= 1新产品不公开可用的策略_代码= 2
n系列匿名特征匿名特征n0-n14,为一些贷款人行为计数特征的处理
1.2.3预测指标 竞赛采用AUC作为评价指标。AUC(曲线下面积)被定义为ROC曲线下与坐标轴围成的面积。

分类算法常见的评估指标如下: 1,怀疑矩阵(混淆矩阵)

(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive)
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(假阴性) (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False
Positive) (4)若一个实例是负类,并且被预测为负类,即为真负类TN(真负)

2,准确率(Accuracy)准确率是常用的一个评价指标,但是不适合样本不均衡的情况。 A c c u r a c y =   f r a c T P + T N T P + T N + F P + F N Accuracy = \ frac {TP + TN} {TP + TN + FP + FN} Accuracy= fracTP+TNTP+TN+FP+FN

3,精确率(Precision)又称查准率,正确预测为正样本(TP)占预测为正样本(TP + FP)的百分比。 P r e c i s i o n =   f r a c T P T P + F P Precision = \ frac {TP} {TP + FP} Precision= fracTPTP+FP

4,召回率(Recall)又称为查全率,正确预测为正样本(TP)占正样本(TP + FN)的百分比。 R e c a l l =   f r a c T P T P + F N Recall = \ frac {TP} {TP + FN} Recall= fracTPTP+FN

5,F1分数精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾彼此,就需要精确率,召回率的结合F1分数。 F 1 − 分 数 =   f r a c 2   f r a c 1 P r e c i s i o n +   f r a c 1 R e c a l l F1-分数= \ frac {2} {\ frac {1} {Precision} + \ frac {1} {Recall}} F1= frac2 frac1Precision+ frac1Recall

6,PR曲线(Precision-Recall Curve)PR曲线是描述精确率和召回率变化的曲线

公关

7,ROC(接收机工作特性)

ROC空间将假正例率(FPR)定义为X轴,真正例率(TPR)定义为Y轴。
TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。 T P R =   f r a c T P T P + F N TPR = \ frac {TP} {TP + FN} TPR= fracTPTP+FN FPR:在所有实际为负例的样本中, F P R =   f r a c F P F P + T N FPR = \ frac {FP} {FP + TN} FPR= fracFPFP+TN

roc.png

8,AUC(曲线下面积)AUC(曲线下面积)被定义为ROC曲线下与坐标轴围成的面积,看上去这个面积的数值不会大于1。又由于ROC曲线一般都处于y = x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性发生;等于0.5时,则真实性最低,无应用价值。

对于金融风控预测类常见的评估指标如下:
1,KS(Kolmogorov-Smirnov)KS统计量由两国苏联数学家AN Kolmogorov和NV Smirnov提出。在风控中,KS常用于评估模型区分度。区分度,说明模型的风险排序能力(等级能力)越强。KS曲线与ROC曲线类似,不同在于

ROC曲线将真正例率和假正例率作为横纵轴
公式如下: K S = m a x ( T P R − F P R ) KS = max(TPR-FPR) KS=maxTPRFPR KS不同代表的不同情况,一般KS曲线将真正实例率和假正例率都作为纵轴,横轴则由偏置的阈值来对准。情况KS值尺度,模型的区分能力越强,但是也不是尺度模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。

KS(%)好坏区分能力
20以下不建议采用
20-40更好
41-50良好
51-60很强
61-75非常强

75以上 过于高,疑似存在问题

2,ROC
3,AUC

1.2.4. 赛题流程

1_1.png

import pandas as pd
train = pd.read_csv('train.csv')
testA = pd.read_csv('testA.csv')
print('Train data shape:',train.shape)
print('TestA data shape:',testA.shape)`
Train data shape: (800000, 47)
TestA data shape: (200000, 48)
train.head()
<style scoped> .dataframe tbody tr th:only-of-type { vertical-align: middle; }
.dataframe tbody tr th {
    vertical-align: top;
}

.dataframe thead th {
    text-align: right;
}
</style>

1.3代码示例
本部分为关于数据读取和指标评价的示例。

1.3.1数据读取pandas

1.3.2 分类指标评价计算示例

混淆矩阵

import numpy as np
from sklearn.metrics import confusion_matrix
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print(‘混淆矩阵:\n’,confusion_matrix(y_true, y_pred))
混淆矩阵:
[[1 1]
[1 1]]

accuracy

from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print(‘ACC:’,accuracy_score(y_true, y_pred))
ACC: 0.5

Precision,Recall,F1-score

from sklearn import metrics
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print(‘Precision’,metrics.precision_score(y_true, y_pred))
print(‘Recall’,metrics.recall_score(y_true, y_pred))
print(‘F1-score:’,metrics.f1_score(y_true, y_pred))
Precision 0.5
Recall 0.5
F1-score: 0.5

P-R曲线

import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
precision, recall, thresholds = precision_recall_curve(y_true, y_pred)
plt.plot(precision, recall)
[<matplotlib.lines.Line2D at 0x2170d0d6108>]
png

ROC曲线

from sklearn.metrics import roc_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
FPR,TPR,thresholds=roc_curve(y_true, y_pred)
plt.title(‘ROC’)
plt.plot(FPR, TPR,‘b’)
plt.plot([0,1],[0,1],‘r–’)
plt.ylabel(‘TPR’)
plt.xlabel(‘FPR’)
Text(0.5, 0, ‘FPR’)
roc.png

AUC

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print(‘AUC socre:’,roc_auc_score(y_true, y_scores))
AUC socre: 0.75

KS值 在实际操作时往往使用ROC曲线配合求出KS值

from sklearn.metrics import roc_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 1, 1]
FPR,TPR,thresholds=roc_curve(y_true, y_pred)
KS=abs(FPR-TPR).max()
print(‘KS值:’,KS)
KS值: 0.5238095238095237
1.4 经验总结
赛题理解是开始比赛的第一步,赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。

在开始比赛之前要对赛题进行充分的了解。
比赛什么时候开始,什么时候结束,什么时候换B榜数据。
和该比赛有没有类似的比赛可以参考借鉴。
线上提交结果的次数往往是有限的,提前了解每日可以提交的次数。
比赛使用的是什么评价指标,可以选择相同的评价指标作为线下验证的方式。
1.5 拓展知识——评分卡
评分卡是一张拥有分数刻度会让相应阈值的表。信用评分卡是用于用户信用的一张刻度表。以下代码是一个非标准评分卡的代码流程,用于刻画用户的信用评分。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段哦!

#评分卡 不是标准评分卡
def Score(prob,P0=600,PDO=20,badrate=None,goodrate=None):
P0 = P0
PDO = PDO
theta0 = badrate/goodrate
B = PDO/np.log(2)
A = P0 + Bnp.log(2theta0)
分数 = A - B * np。日志(概率/(1 - 概率))
返回 得分

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值