金融风控-贷款违约预测Task1 学习笔记

金融风控-贷款违约预测Task1 学习笔记

目标:理解赛题目标,学习相应理论概念,熟悉应用预测指标,评分规则。
学习:
一.容易混淆
若一个实例为正类,被预测为负类,即为假负类。(False Negative)(FN)
若一个实例为负类,被预测为正类,即为假正类。(False Positive)(FP)
二.概念理解:
1.精确率(Precision):P = TP/(TP + FP)
表述了分为正类的示例中实际为正类的比例。
2. 召回率(Recall):recall=TP/(TP+FN)
是覆盖面的度量,度量有多少个正类被分为正类。
与此对等有灵敏度(sensitive):sensitive = TP/P,
表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
3.综合评价指标:F1 Score,P和R指标有时候会出现的矛盾的情况,综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。F-Measure是Precision和Recall加权调和平均。
4.P-R曲线(Precision-Recall Curve)是描述精确率和召回率变化的曲线。
P-R曲线
通过P-R曲线图可以看到当p=0时,R=1。p=1时R=0。
两个边界取值考虑两个边界情况,

  • 当score > threshold 时recall为1,Precision为0。

  • 当score < threshold 时Precision=1,recall =0。

    由曲线看出:

  • 精准率和召回率是相互牵制,互相矛盾的两个变量,不能同时增高;

  • 阈值越大,精准率越高,召回率越低;阈值越小,精准率越低,召回率越高;

    5.ROC(Receiver Operating Characteristic)与AUC(Area Under Curve)
    ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。

  • FPR=TP/(TP+FN),即正确识别的正例数据占据总的正例数据的比例,为召回率。在正类数据较少时很适用。

  • TPR=FP/(FP+TN),即实际值为负例数据,将负例数据预测为正例的百分比;

  • AUC(area under thecurve)即ROC曲线的下部面积,越大分类器越好。

  • ROC曲线好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(classimbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。而P-R曲线则会变化较大。但在极度不平衡的数据下(Positive的样本较少),PR曲线可能比ROC曲线更实用。

    下图解释上述结论,源于博客:https://www.zybuluo.com/frank-sh
    在这里插入图片描述

    6.金融风控预测类常见的评估指标:
    类似于所有评价体系,有对应的公式体验评分标准。K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 KS值越大,模型的区分能力越强,但不代表越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高需要检查模型是否过拟合。
    三.学习反思:
    理论学习应和应用场景并行。更好的应用帮助自己更快理解相应理论知识。继续努力。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值