本次赛题链接:https://tianchi.aliyun.com/competition/entrance/531830/information
题意理解
- 这道题的目的是预测用户是否违约,本质上就是一个二分类问题。
- 每个样本有 47 个特征,其中 15 个特征做了匿名化处理,不同的特征具有不同的性质!如id是离散的,且没有顺序以及大小的关系;grade表示贷款等级虽然同样是离散的,但他是有大小之分的,因此在建模之前应当尽量考虑这些关系~
- 数据的样本数量超过120完,其中使用20万作为测试集、20万作为验证集,因此训练集的数据量是超过80万的,数据的数量应当还是很充足。
提交与指标
- 最终结果使用AUC作为评价指标,AUC越大越好
- 提交的是当前样本是违规的概率,而不是某个类别
需要注意的地方
- 首先需要做数据分析,了解数据的分布情况,比如:
- 是否有缺失值,如果有,该如何处理
- 类别是否均衡
- 变量相关性分析等
- 模型的选择