目录
ROC(Receiver Operating Characteristic)曲线
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr
学习知识点概要
本篇文章主要是笔者通过阿里云AI训练营金融风控中所教授的内容以及结合查阅的资料和个人的理解来描述金融风控数据挖掘中的一些名词进行解释,如数据概况,分类算法及其评估指标等等。
学习内容
1数据概况
即数据的大致情况,说明列的大致特征,可以帮我们更好地理解数据以及对后续分析打下良好的基础。
2分类算法中常见的评估指标
1混淆矩阵(Confuse Matrix)
混淆矩阵中有两种指标,一种是对于预测类别的记录,若预测类别为正,则记为P(positive),若预测类别为负,则记为N(Negitive);另一种指标是对于预测类别的结果的正确与否进行的记录,
若预测结果正确,那么记为T(Ture),反之则为F(False)。通过这两个数据,我们便可以建立一个矩阵,即“混淆矩阵”。
根据这张图片,我们可以得出两个公式
表示有多少预测类别为正的数据的结果是正确的,即
召回率(查全率)
表示样本中有多少的类别为正的数据被预测正确了,即
准确率
预测正确的样本在所有样本中的比率
P-R曲线
是描述精确率和召回率变化的曲线,如图
通过这张图,我们可以看出精确率和召回率是相互影响的,一方的升高会导致另一方的下降,因此要想兼顾两者,我们就要用F1-Score
ROC(Receiver Operating Characteristic)曲线
以FRP(假正率)为y轴,TPR(真正率)为x轴的曲线
该曲线的优点在于,他可以很好地描述分类器对于不均衡分布的样本的分类性能。
AUC(Area Under Curve)
ROC曲线 下与坐标轴围成的面积。
AUC的判别标准:
AUC越接近1,说明检测方法的真实性越好;若在0.5至1之间,说明真实性好于随机预测,等于0.5时,就是随机预测,没有什么价值。
学习问题与解答
1 样本不均衡是什么意思?
样本的数据中,正例和反例的比例不平衡,一方的数量过多。
2 为什么说准确率不适合于样本不均衡时的计算?
假如一个样本中,负例的比例占99%,那么此时只要把预测情况全部改为负例,那么就可以所建的模型可以得到极高的正确率,但是这个结果是片面的。
目录
ROC(Receiver Operating Characteristic)曲线
在建立模型的过程中,要多角度地分析,不能仅仅关注模型本身,还要分析外部的条件,如样本比例等等,分析的过于片面,会产生非常严重的后果。