赛题理解
比赛地址:比赛地址
数据集:train.csv和testA.csv,以及sample_submit.csv
数据项:47项变量信息,包含id、loanAmnt、term、interestRate、intsallment、grade、subGrade、employmentTitle、employmentLength、homeOwnership、annuallncome、verificationStatus、issueDate、purpose、postCode、regionCode、dti、delinquency_2years、ficoRangeLow、ficoRangeHigh、openAcc、pubRec、pubRecBankruptcies、revolBal、revolUtil、totalAcc、initialListStatus、applicationType、earliesCreditLine、title、policyCode、n系列匿名特征
指标回顾
数据分析常见指标
- 混淆矩阵(Confuse Matrix):真正类TP、假负类FN、假正类FP、真负类TN
- 准确率:不适合样本不均衡的情况
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN - 精确率:正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP - 召回率:正确预测为正样本(TP)占正样本(TP+FN)的百分比
R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP - F1 Score:权衡精准率Precision和召回率Recall
F 1 − S c o r e = 2 1 P r e c i s i o n + 1 R e c a l l F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} F1−Score=Precision1+Recall12 - P-R曲线(Precision-Recall Curve)
- ROC(Receiver Operating Characteristic)
- AUC(Area Under Curve)
金融预测类评估指标
- KS(Kolmogorov-Smirnov)
K S = m a x ( T P R − F P R ) KS=max(TPR-FPR) KS=max(TPR−FPR)
KS(%) | 好坏区分能力 |
---|---|
20以下 | 不建议采用 |
20-40 | 较好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
- ROC
- AUC