广工大数协阿里云天池金融风控训练营-Task01-赛题理解

本文链接：https://blog.csdn.net/P_chenglong/article/details/116015742

1.1 学习目标

1.2 了解赛题

1.2.1 赛题概述

根据给定的平台个人贷款数据集，建立模型，判断其是否有信贷违约的可能，预测金融风险。

1.2.2 数据概况

比赛界面会有对应的数据概况介绍，说明

1.2.3 预测指标

1、混淆矩阵（Confuse Matrix）

（1）若一个实例是正类，并且被预测为正类，即为真正类TP

（2）若一个实例是正类，但是被预测为负类，即为假负类FN

（3）若一个实例是负类，但是被预测为正类，即为假正类FP

（4）若一个实例是负类，并且被预测为负类，即为真负类TN

（结果与事实相符为：真类；结果与事实不符为：假类字母记忆：真为T，假为F，正负分别是PN）

（第一个字母表示算法预测的对错，T表示正确，F表示错误；第2个字母表示算法预测的结果，P表示正例，N表示负例）

2、准确率（不适合样本不均匀的情况）

Accuracy=(TP+TN)/(TP+FN+FP+TN) TP,TN是正确的情况

3、精确率（查准率正类中的真占比）

Precision=TP/(TP+FP)

4、召回率（查全率真类中的正占比）

Recall=TP/(TP+TN)

5、F1 Score（精确率和召回率相互影响，变化趋势是相反的所以用F1 Score综合分析）

F1 Score=2/(1/Precision+1/Recall)

6、

精确率和召回率的分子相同，分母不同，用P-R曲线可以描绘他们的变化关系

我们判断用户的好坏，需要先定义一个判断标准(专业名词：阀值），比如我们定义这个标准为0.5，认为小于0.5的认为是好用户，

那大于0.5的是不好的，每个标准（阈值）都有对应的精确率和召回率

7、ROC：将假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴

FPR：在所有实际为负例的样本中，被错误地判断为正例之比率=FP/(FP+TN)

TPR：在所有实际为正例的样本中，被正确地判断为正例之比率=TP/(TP+FN)

AUC是定义为 ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于

y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值

金融风控预测类常见的评估指标

1、KS常用于评估模型区分度。区分度越大，说明模型的风险排序能力越强。 K-S曲线与ROC曲线类似，不同在于

ROC曲线将真正例率和假正例率作为横纵轴

K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。公式如下：KS=max(TPR−FPR)KS=max(TPR−FPR)KS不同代表的不同情况，一般情况KS值越大，模型的区分

能力越强，但是也不是越大模型效果就越好，如果KS过大，模型可能存在异常，所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况，但此对应不是唯一的，只代

表大致趋势。

KS（%）	好坏区分能力
20以下	不建议采用
20-40	较好
41-50	良好
51-60	很强
61-75	非常强
75以上	过于高，疑似存在问题

2、ROC

3、AUC

1.2.4 赛题流程

1.3 代码展示

1.3.1 读取数据

还是直接下载吧

数据概述还是要自己记住的，这样分析操作起来会方面很多的

1.3.2 分类指标评价计算实例

问题：1、除了y_pred和y_true两行其实的代码对于分析计算而言是固定的吗？

2、混淆矩阵 accuracy Precision,Recall,F1-score P-R曲线 ROC曲线 AUC KS值（在实际操作时往往使用ROC曲线配合求出KS值）这些代码区域中y_pred和y_true的

哪些数值是怎么来的？

1.4 经验总结

广工大数协 阿里云天池 金融风控训练营-Task01-赛题理解

广工大数协阿里云天池金融风控训练营-Task01-赛题理解