数据挖掘实战——金融风控

数据挖掘实战——金融风控

赛题理解

比赛地址:比赛地址
数据集:train.csv和testA.csv,以及sample_submit.csv
数据项:47项变量信息,包含id、loanAmnt、term、interestRate、intsallment、gradesubGrade、employmentTitle、employmentLength、homeOwnership、annuallncome、verificationStatus、issueDate、purpose、postCode、regionCode、dti、delinquency_2years、ficoRangeLow、ficoRangeHigh、openAcc、pubRec、pubRecBankruptcies、revolBal、revolUtil、totalAcc、initialListStatus、applicationType、earliesCreditLine、title、policyCode、n系列匿名特征

指标回顾

数据分析常见指标

  1. 混淆矩阵(Confuse Matrix):真正类TP、假负类FN、假正类FP、真负类TN
  2. 准确率:不适合样本不均衡的情况
    A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
  3. 精确率:正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比
    P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
  4. 召回率:正确预测为正样本(TP)占正样本(TP+FN)的百分比
    R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP
  5. F1 Score:权衡精准率Precision和召回率Recall
    F 1 − S c o r e = 2 1 P r e c i s i o n + 1 R e c a l l F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} F1Score=Precision1+Recall12
  6. P-R曲线(Precision-Recall Curve)
  7. ROC(Receiver Operating Characteristic)
  8. AUC(Area Under Curve)

金融预测类评估指标

  1. KS(Kolmogorov-Smirnov)
    K S = m a x ( T P R − F P R ) KS=max(TPR-FPR) KS=max(TPRFPR)
KS(%)好坏区分能力
20以下不建议采用
20-40较好
41-50良好
51-60很强
61-75非常强
75以上过于高,疑似存在问题
  1. ROC
  2. AUC
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值