阿里云天池金融风控训练营数据挖掘-Task1 学习笔记

最新推荐文章于 2022-07-19 19:57:46 发布

kkifr

最新推荐文章于 2022-07-19 19:57:46 发布

阅读量235

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kkifr/article/details/116021979

版权

目录

学习知识点概要

2分类算法中常见的评估指标

召回率（查全率）

ROC（Receiver Operating Characteristic）曲线

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampfr

学习知识点概要

本篇文章主要是笔者通过阿里云AI训练营金融风控中所教授的内容以及结合查阅的资料和个人的理解来描述金融风控数据挖掘中的一些名词进行解释，如数据概况，分类算法及其评估指标等等。

学习内容

1数据概况

即数据的大致情况，说明列的大致特征，可以帮我们更好地理解数据以及对后续分析打下良好的基础。

2分类算法中常见的评估指标

1混淆矩阵（Confuse Matrix）

混淆矩阵中有两种指标，一种是对于预测类别的记录，若预测类别为正，则记为P(positive)，若预测类别为负，则记为N(Negitive)；另一种指标是对于预测类别的结果的正确与否进行的记录，

若预测结果正确，那么记为T(Ture)，反之则为F(False)。通过这两个数据，我们便可以建立一个矩阵，即“混淆矩阵”。

根据这张图片，我们可以得出两个公式

表示有多少预测类别为正的数据的结果是正确的，即

$P r e c i s i o n=\frac{TP}{TP+FP}$

召回率（查全率）

表示样本中有多少的类别为正的数据被预测正确了，即

$R e c a l l =\frac{TP}{TP+FN}$

准确率

预测正确的样本在所有样本中的比率

$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$

P-R曲线

是描述精确率和召回率变化的曲线，如图

通过这张图，我们可以看出精确率和召回率是相互影响的，一方的升高会导致另一方的下降，因此要想兼顾两者，我们就要用F1-Score

$F1-Score=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}$

ROC（Receiver Operating Characteristic）曲线

以FRP（假正率）为y轴，TPR（真正率）为x轴的曲线

$FRP=\frac{FP}{FP+TN}$ $TRP=\frac{TP}{TP+FN}$

该曲线的优点在于，他可以很好地描述分类器对于不均衡分布的样本的分类性能。

AUC(Area Under Curve)

ROC曲线下与坐标轴围成的面积。

AUC的判别标准：

AUC越接近1，说明检测方法的真实性越好；若在0.5至1之间，说明真实性好于随机预测，等于0.5时，就是随机预测，没有什么价值。

学习问题与解答

1 样本不均衡是什么意思？

样本的数据中，正例和反例的比例不平衡，一方的数量过多。

2 为什么说准确率不适合于样本不均衡时的计算？

假如一个样本中，负例的比例占99%，那么此时只要把预测情况全部改为负例，那么就可以所建的模型可以得到极高的正确率，但是这个结果是片面的。

目录

学习知识点概要

2分类算法中常见的评估指标

召回率（查全率）

ROC（Receiver Operating Characteristic）曲线

AUC(Area Under Curve)

学习问题与解答

学习思考和总结

在建立模型的过程中，要多角度地分析，不能仅仅关注模型本身，还要分析外部的条件，如样本比例等等，分析的过于片面，会产生非常严重的后果。

参考文章链接 https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.a16c4d57NwWjc1&postId=170948

https://www.zhihu.com/question/39840928/answer/241440370

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阿里云天池金融风控训练营数据挖掘-Task1 学习笔记

学习知识点概要本篇文章主要是笔者通过阿里云AI训练营金融风控中所教授的内容以及结合查阅的资料和个人的理解来描述金融风控数据挖掘中的一些名词进行解释，如数据概况，分类算法及其评估指标等等。学习内容1数据概况即数据的大致情况，说明列的大致特征，可以帮我们更好地理解数据以及对后续分析打下良好的基础。2分类算法中常见的评估指标1混淆矩阵（Confuse Matrix）混淆矩阵中有两种指标，一种是对于预测类别的记录，若预测类别为正确，则记为P(positive)，若预测类别为错误，则记为N
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。