从零开始,手把手,一文kaggle竞赛速度入门! 泰坦尼克
1. 前言
网上并不缺乏kaggle竞赛的教程,但对于相当一部分人来说,在跟着进行第一个竞赛的过程中,就逐渐放弃了。笔者也是在初次竞赛时,遇到了很多的麻烦,在跟着大佬一步步操作的时候,困难的去理解每一步的意义,这给了我很大的阻力。
在后面的学习生活中,我逐渐明白了,对于入门来说,走完一个完整的流程是最重要和基础的,至于优化,那是后面的事。
基于此,本文力求用最少的代码,手把手,图文结合的带你去进行一次完整的kaggle竞赛体验,从进入网页,到提交预测获取成绩。
我相信推开了门,自然有各种方法去寻找宝藏,当然,我们后续,也会有内容更丰富的泰坦尼克竞赛案例推出。
2. 如何开始kaggle竞赛
2.1进入网站注册账号
kaggle
进入kaggle官网(最好有vpn),首先点击右上角register注册账号
2.2进入到比赛界面
注册完账号后,直接搜索titanic进入比赛主页面
接着进入到比赛的主页面
其中右上角的join competition可以参加比赛,左侧红线上的栏目分别是:
overview 对于该项目的一些大致介绍
data 该项目的数据
notebook 前人的笔记,也是你提升的重要渠道
discussion 关于该项目的一些讨论,另一条提升你模型的途径
leaderboard 主要是一个各队伍结果的排行榜
rules 一些规矩
其中,对于初学者来说,要完整实现一遍流程,最重要的是我加粗的两条,即overview与data。
2.3了解项目
你可以去overview上仔细查看这个项目,或者一句话总结这个项目:通过乘客身上诸如性别、年龄等多个特征来对乘客是否在泰坦尼克事件中存活做出预测
3. 数据导入与预处理
数据导入
进入data栏准备下载数据:链接
在上述页面可以看到数据概览,向下翻就能找到数据下载的方法,如图:
这里的数据略有不同,可以看到三个文件:
第一个文件为我们提供了最后提交模型预测结果文件的模板
test.csv文件给出了不包含标签列的测试数据(也就是说不包含Survival数据)
train.csv文件就是我们用来训练模型的数据。
登录账号,就可以下载了(可能会需要科学手段)
加载好数据后,就正式开始我们的kaggle之旅!!
在对数据有了初步认识之后,开始进行预处理:
数据预处理
我们直接选定[‘Pclass’, ‘Sex’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’]等指标来对存活结果进行预测(你当然可以做更多的工作来选择合适的特征,这里为了简单直接选定特征),然后,我们这里将test数据与train数据都进行处理:用0和1代替男女,用均值填充缺失数据。
#读取训练数据集
df_total = pd.read_csv('train.csv', index_col='PassengerId')
#选取指定特征
df_total = df_total[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]
#one-hot处理
df_total['Sex'] = df_total['