1、数据清洗
1)将数据根据数据类型划分,分别分成分类变量与连续变量
2)观察训练集与测试集特征分布
3)缺失值策略选择:填充缺失值或者讲缺失值设为某一常数
4)异常值处理
2、特征工程
1)将类别变量做labelencoding
2)n系列变量特征衍生:两两相减与相除、联合3个变量做标准差(衍生结束数据集过大,待优化)
3、模型训练
1、尝试使用lr最优分箱策略,线上AUC:0.7
2、尝试使用catboost拟合数值变量+贷款等级+贷款子集,线上AUC:0.727
1、数据清洗
1)将数据根据数据类型划分,分别分成分类变量与连续变量
2)观察训练集与测试集特征分布
3)缺失值策略选择:填充缺失值或者讲缺失值设为某一常数
4)异常值处理
2、特征工程
1)将类别变量做labelencoding
2)n系列变量特征衍生:两两相减与相除、联合3个变量做标准差(衍生结束数据集过大,待优化)
3、模型训练
1、尝试使用lr最优分箱策略,线上AUC:0.7
2、尝试使用catboost拟合数值变量+贷款等级+贷款子集,线上AUC:0.727