广工大数协阿里云天池金融风控训练营-Task 01

最新推荐文章于 2021-11-30 21:47:19 发布

吱吱睿

最新推荐文章于 2021-11-30 21:47:19 发布

阅读量115

点赞数

本文链接：https://blog.csdn.net/m0_57474725/article/details/115983396

版权

金融风控训练营-Task 01赛题理解

本学习笔记为阿里云天池金融风控训练营 Task 01的学习内容
学习链接为：阿里云天池金融风控训练营.

一、学习知识点概要

通过Task01的学习，主要理解以下内容：
1.赛题内容
2.分类算法常见的评估指标
3.金融风控预测类常见的评估指标

二、学习内容

1.赛题及数据概况

本次比赛要求
以预测金融风险为任务，根据给定的数据集，建立模型，预测金融风险。主要通过自主学习和练习，共同提升学习能力。

2.分类算法常见的评估指标

1.混淆矩阵（Confuse Matrix）

混淆矩阵，又称为可能性矩阵或错误矩阵。可以用一个简单的表格对混淆矩阵进行呈现。

混淆矩阵

所有正确的预测结果都在对角线上，所以从混淆矩阵中可以很方便直观的看出哪里有错误，因为他们呈现在对角线外面。

从混淆矩阵中，可以得到以下更高级的分类指标。

2.准确率（Accuracy）
$Accuracy=\frac{TP+TN}{TP+TN+FP+FN} \quad$

含义：判断正确的结果占总观测值的比重。
一般情况下，模型的精度越高，说明模型的效果越好。
不适合样本不均衡的情况。

3.精确率（Precision）
$Precision=\frac{TP}{TP+FP} \quad$

含义：正确预测为正样本占预测为正样本的比重。又称查准率。
一般情况下，模型的查准率越高，说明模型的效果越好。

4.召回率（Recall）
$Recall=\frac{TP}{TP+FN} \quad$

含义：正确预测为正样本占正样本的百分比。又称查全率。
一般情况下，召回率越高，说明有更多的正样本被模型预测正确，模型的效果越好。

5.F1 Score

$F1-Score=\frac{2}{ \quad {1\over Precision}+{1\over Recall}} \quad$

精确率和召回率是一对矛盾的指标。一般来说，精确率高时，召回率往往偏低；而召回率高时，精确率往往偏低。如果需要兼顾二者，就需要精确率、召回率的结合，即F1 Score

6.P-R曲线（Precision-Recall Curve）

P-R曲线

通过选择合适的阈值(比如K%)对样本进行合理的划分，概率大于K%的样本为正例，小于K%的样本为负例，样本分类完成后计算相应的精准率和召回率，最后我们会得到对应关系。

7.ROC（Receiver Operating Characteristic）

假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴。

先引入：
灵敏度（Sensitivity） = TP/(TP+FN) = 召回率
特异度（Specificity） = TN/(FP+TN)

导出：

真正例率（TPR） = 灵敏度 = TP/(TP+FN)
假正例率（FPR） = 1- 特异度 = FP/(FP+TN)

8.AUC(Area Under Curve)

AUC被定义为 ROC曲线 下与坐标轴围成的面积，显然这个面积的数值不会大于1。
又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。
AUC越接近1.0，检测方法真实性越高；等于0.5时，则真实性最低，无应用价值。
所以，AUC的值越大，当前的分类算法越有可能将正样本排在负样本值前面，既能够更好的分类。

3.金融风控预测类常见的评估指标

1.KS(Kolmogorov-Smirnov)

K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。
KS不同代表的不同情况，一般情况KS值越大，模型的区分能力越强。但是也不是越大模型效果就越好，如果KS过大，模型可能存在异常，所以当KS值过高可能需要检查模型是否过拟合。具体如下：

KS（%）	好坏区分能力
20以下	不建议采用
20-40	较好
41-50	良好
51-60	很强
61-75	非常强
75以上	过于高，疑似存在问题

三、学习问题与解答

Q：为何假正例率（FPR） = （1- 特异度）中，要用（1-特异度）表示，而不是直接采用特异度？
A：由于我们比较关心正样本，所以需要查看有多少负样本被错误地预测为正样本，所以使用（1-特异度），而不是特异度。从而得到TPR和FPR.

四、学习思考与总结

通过学习各项评估指标，可知每一个指标都有各自的优缺点，我们在进行数据分析是不能单方面地只看某一种指标，而是要全方位思考。指标之间互相结合，才能得出更优的结论。

在学习过程中，遇到问题首先要认真思考并查找相关资料，之后还是不能明白的再向同学和老师寻求帮助。不要一遇到不懂的问题就觉得需要别人的帮助，失去了自己思考的能力。

本文引用：
1.分类模型评判指标-混淆矩阵
2.机器学习笔记-混淆矩阵
3.PR曲线
4.ROC及AUC计算方法及原理

吱吱睿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
广工大数协阿里云天池金融风控训练营-Task 01

金融风控训练营-Task 01赛题理解本学习笔记为阿里云天池金融风控训练营的学习内容学习链接为：阿里云天池金融风控训练营.1.学习知识点概要
复制链接

扫一扫