广工大数协 阿里云天池 金融风控训练营·Task 01赛题理解打卡笔记

一、学习知识点概要

task 1部分对本次比赛进行了大致介绍,重点解释了数据的含义及数据指标,为之后的比赛打好基础。

二、学习内容

本次比赛采用分类算法,其主要评估指标为混淆矩阵、精确率、准确率、召回率、F1 score、P-R曲线、ROC、AUC等

1、混淆矩阵

查看源图像

2、精确率

指预测为正的样本中正确预测的样本所占比例

3、准确率

指所有样本中正确预测的样本所占比例

4、召回率

指正样本中正确预测的样本比例

5、F1 score

F1 score/2 = 1/精确率 + 1/召回率

6、P-R曲线

P-R曲线是描述精确率和召回率变化的曲线,由F1 score的公式可看出精确率和召回率是“此消彼长”的关系,故而我们很难同时使这两个指标都表现良好,若要另一个指标高,则另一个指标会相应降低。如图。

查看源图像

7、ROC

是反映敏感性和特异性连续变量的综合指标,揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。如图。

查看源图像

8、AUC

是ROC曲线与x轴围成的面积。一般ROC曲线高于y=x曲线,显然AUC的值处于(0.5,1)的区间内。当AUC的值越接近于1,检测方法的真实性越高;反之检测方法的真实性越低,检测方法越不可靠。

查看源图像

三、学习问题与解答

在对理论的理解上暂时没有出现障碍,但是在实操即敲代码时发现有许多模块无法安装。该问题暂时还未得到解决,之后会向专业老师请教。

四、学习思考与总结

在学习这些指标的过程中,我发现每个指标都不是完美的,不能解决所有情况,所以要从不同的方面对数据进行深度挖掘,在不断寻找更好的分析方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值