记录下每一次的改进及其score。
1、只用训练集的特征+简单处理
特征只用训练集的特征,把string型的特征全部进行one-hot转化,然后随机1:4分成测试集训练集,模型也调参直接出结果。
最终的score是训练集80.13%、验证集76.33%、线上74.28%。
实验2:SK_ID_CURR作为唯一的ID,特征重要性能排在第12位?
处理方法:做个消融实验,去掉这个特征,80.44%、75.82%、74.62%。
结论:虽然训练集auc相比上一次实验下降了0.51pt,但是线上score却增加了0.34pt,可见虽然SK_ID_CURR的特征重要性较高,但对模型的泛化性有负向作用。
实验3:很多flag特征也被当做string类型进行了one-hot处理,导致其实是两个一样的特征?
处理方法:在做特征one-hot的时候,去掉一个特征。81.66、76.08、74.42%。
结论:训练和验证的效果有所提升,但测试集有所下降,明天试下flag类特征不处理、其它string特征进行one-hot的方法。
实验4:flag类特征不进行one-hot处理,其它处理。
80.65%、75.68%、74.44%,没什么区别。