Kaggle实践之《Home Credit Default Risk》的逐步优化

崔中江

已于 2024-02-24 18:55:25 修改

阅读量627

点赞数 7

分类专栏： kaggle 文章标签：深度学习人工智能

于 2024-02-22 01:01:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fluentwater/article/details/136222818

版权

kaggle 专栏收录该内容

2 篇文章

订阅专栏

本文通过一系列实验研究了不同特征处理方式对机器学习模型性能的影响，发现SK_ID_CURR虽重要但对泛化性有负面影响；flag特征的one-hot处理需谨慎；加入bureau特征后，整体效果有所变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记录下每一次的改进及其score。

1、只用训练集的特征+简单处理

特征只用训练集的特征，把string型的特征全部进行one-hot转化，然后随机1:4分成测试集训练集，模型也调参直接出结果。

最终的score是训练集80.13%、验证集76.33%、线上74.28%。
在这里插入图片描述

实验2：SK_ID_CURR作为唯一的ID，特征重要性能排在第12位?
处理方法：做个消融实验，去掉这个特征，80.44%、75.82%、74.62%。
结论：虽然训练集auc相比上一次实验下降了0.51pt，但是线上score却增加了0.34pt，可见虽然SK_ID_CURR的特征重要性较高，但对模型的泛化性有负向作用。

实验3：很多flag特征也被当做string类型进行了one-hot处理，导致其实是两个一样的特征?
处理方法：在做特征one-hot的时候，去掉一个特征。81.66、76.08、74.42%。
结论：训练和验证的效果有所提升，但测试集有所下降，明天试下flag类特征不处理、其它string特征进行one-hot的方法。

实验4：flag类特征不进行one-hot处理，其它处理。
80.65%、75.68%、74.44%，没什么区别。

2、增加bureau特征

博客等级

码龄10年

24
原创

115
点赞

474
收藏

86
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Kaggle实践之《Home Credit Default Risk》的数据源理解
长白山神树632: 文章只有第一章吗？只有数据探查这一章吗？
再读《送东阳马生序》
一个奋斗中的麻花: 写的真好，看深度学习看不进去看这个倒是看得进去
Kaggle实践之《Home Credit Default Risk》的逐步优化
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
经典论文笔记之《Efficient Estimation of Word Representations in Vector Space》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
深度学习基础篇之卷积神经网络（CNN）
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 新人首创任务挑战赛: https://marketing.csdn.net/p/90a06697f3eae83aabea1e150f5be8a5?utm_source=csdn_ai_ada_redpacket Microsoft Edge功能测评！: https://activity.csdn.net/creatActivity?id=10403?utm_source=csdn_ai_ada_redpacket 职场解惑讨论会: https://activity.csdn.net/creatActivity?id=10427?utm_source=csdn_ai_ada_redpacket 可持续能源技术真的能改变世界吗？: https://activity.csdn.net/creatActivity?id=10425?utm_source=csdn_ai_ada_redpacket 无效数据，你会怎么处理？: https://activity.csdn.net/creatActivity?id=10423?utm_source=csdn_ai_ada_redpacket 物联网技术正在如何影响我们的生活: https://activity.csdn.net/creatActivity?id=10421?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 应届生如何提高职场竞争力: https://activity.csdn.net/creatActivity?id=10409?utm_source=csdn_ai_ada_redpacket 讯飞星火大模型将超越chatgpt？: https://activity.csdn.net/creatActivity?id=10407?utm_source=csdn_ai_ada_redpacket 职场新人备忘录: https://activity.csdn.net/creatActivity?id=10405?utm_source=csdn_ai_ada_redpacket “裸奔”时代下该如何保护网络隐私: https://activity.csdn.net/creatActivity?id=10401?utm_source=csdn_ai_ada_redpacket VR vs AR：哪种技术更有潜力改变未来？: https://activity.csdn.net/creatActivity?id=10399?utm_source=csdn_ai_ada_redpacket 蓝桥杯备赛指南分享: https://activity.csdn.net/creatActivity?id=10317?utm_source=csdn_ai_ada_redpacket

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。