Kaggle实践之《Home Credit Default Risk》的逐步优化

记录下每一次的改进及其score。

1、只用训练集的特征+简单处理

特征只用训练集的特征,把string型的特征全部进行one-hot转化,然后随机1:4分成测试集训练集,模型也调参直接出结果。

最终的score是训练集80.13%、验证集76.33%、线上74.28%。
在这里插入图片描述

实验2:SK_ID_CURR作为唯一的ID,特征重要性能排在第12位?
处理方法:做个消融实验,去掉这个特征,80.44%、75.82%、74.62%。
结论:虽然训练集auc相比上一次实验下降了0.51pt,但是线上score却增加了0.34pt,可见虽然SK_ID_CURR的特征重要性较高,但对模型的泛化性有负向作用。

实验3:很多flag特征也被当做string类型进行了one-hot处理,导致其实是两个一样的特征?
处理方法:在做特征one-hot的时候,去掉一个特征。81.66、76.08、74.42%。
结论:训练和验证的效果有所提升,但测试集有所下降,明天试下flag类特征不处理、其它string特征进行one-hot的方法。

实验4:flag类特征不进行one-hot处理,其它处理。
80.65%、75.68%、74.44%,没什么区别。

2、增加bureau特征

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值