机器学习 --- kaggle 比赛

最新推荐文章于 2023-06-22 21:37:41 发布

gou12341234

最新推荐文章于 2023-06-22 21:37:41 发布

阅读量479

点赞数 2

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gou12341234/article/details/82492126

版权

最近AI很火，就学习了一段时间，为了检验一下学习成果，在kaggle上参见了一个比赛！

比赛地址：https://www.kaggle.com/c/home-credit-default-risk

下面记录一下过程

比赛题目家庭信用违约风险

第一步就是先清理数据

可以通过pandas 库读取数据，简单分析一下数据类型

看一下数据都是什么类型的，这一步处理对你模型选择有影响，因为有些模型对object的数据类型很敏感，需要把数据转换为模型可以处理的。

数据中的缺失值也需要处理，我是删除确实值超过50%的数据

然后可以采用填充这些缺失值，具体怎么处理看需要

当然还需要对数据中一些奇异值进行处理

下面还可以对数据特征进行具体的分析了，可以看看那些数据本身关联性很大，比如年月日这类的，就可以自己先行处理了，我这里就没有做具体的分析了

以上基本数据清理工作就完成了

第二部就是特征提取了

https://www.cnblogs.com/wxquare/p/5484636.html 有很多方法，需要多次验证最优

这里我分别采用了皮尔森相关系数和随机森林两种方法，在这个特征集上，我测试结果是随机森林提取特征准确率更高一些

下面是皮尔森相关系数提取特征方法

特征提取后，还可以对数据进行归一化和标准化处理

具体为什么，可以参考 https://blog.csdn.net/u012101561/article/details/72506273/

第三部就是模型选择和训练了

根据近些年来，kaggl比赛靠前名次的经验，都是选取多模型组合的方式提高成绩的

单一模型的调优，可以采用GridSearchCV 方法

可以多训练几个模型，通过以下方法进行组合

完成上面的工作，剩下的就是耐心的调优过程了，如何效果不好，可以特征工程上多想一些方法

由于后期没有太多时间进行调优，只是提交了几次，成绩在30%，希望以后有时间，多多参加。

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。