机器学习 --- kaggle 比赛

最近AI很火,就学习了一段时间,为了检验一下学习成果,在kaggle上参见了一个比赛!

比赛地址:https://www.kaggle.com/c/home-credit-default-risk

下面记录一下过程 

 

比赛题目   家庭信用违约风险

第一步就是先清理数据 

        

可以通过pandas 库读取数据,简单分析一下数据类型

看一下数据都是什么类型的,这一步处理对你模型选择有影响,因为有些模型对object的数据类型很敏感,需要把数据转换为模型可以处理的。

 

数据中的缺失值也需要处理,我是删除确实值超过50%的数据

然后可以采用填充这些缺失值,具体怎么处理看需要

当然还需要对数据中一些奇异值进行处理 

下面还可以对数据特征进行具体的分析了,可以看看那些数据本身关联性很大,比如年月日这类的,就可以自己先行处理了,我这里就没有做具体的分析了

以上基本数据清理工作就完成了

 

第二部就是特征提取了    

https://www.cnblogs.com/wxquare/p/5484636.html 有很多方法,需要多次验证最优

这里我分别采用了皮尔森相关系数 和 随机森林 两种方法,在这个特征集上,我测试结果是随机森林提取特征准确率更 高一些

下面是皮尔森相关系数 提取特征方法

特征提取后,还可以对数据进行归一化和标准化处理

具体为什么,可以参考 https://blog.csdn.net/u012101561/article/details/72506273/

 

第三部 就是模型选择和训练了

根据近些年来,kaggl比赛靠前名次的经验,都是选取多模型组合的方式提高成绩的

单一模型的调优,可以采用GridSearchCV 方法

可以多训练几个模型,通过以下方法进行组合

 

完成上面的工作,剩下的就是耐心的调优过程了,如何效果不好,可以特征工程上多想一些方法

 

由于后期没有太多时间进行调优,只是提交了几次,成绩在30%,希望以后有时间,多多参加。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值