从零开始,手把手,一文kaggle竞赛速度入门! 泰坦尼克

1. 前言

网上并不缺乏kaggle竞赛的教程,但对于相当一部分人来说,在跟着进行第一个竞赛的过程中,就逐渐放弃了。笔者也是在初次竞赛时,遇到了很多的麻烦,在跟着大佬一步步操作的时候,困难的去理解每一步的意义,这给了我很大的阻力。

在后面的学习生活中,我逐渐明白了,对于入门来说,走完一个完整的流程是最重要和基础的,至于优化,那是后面的事。

基于此,本文力求用最少的代码,手把手,图文结合的带你去进行一次完整的kaggle竞赛体验,从进入网页,到提交预测获取成绩。

我相信推开了门,自然有各种方法去寻找宝藏,当然,我们后续,也会有内容更丰富的泰坦尼克竞赛案例推出。

2. 如何开始kaggle竞赛

2.1进入网站注册账号

kaggle
进入kaggle官网(最好有vpn),首先点击右上角register注册账号

在这里插入图片描述

2.2进入到比赛界面

注册完账号后,直接搜索titanic进入比赛主页面
在这里插入图片描述
接着进入到比赛的主页面
在这里插入图片描述
其中右上角的join competition可以参加比赛,左侧红线上的栏目分别是:
overview 对于该项目的一些大致介绍
data 该项目的数据
notebook 前人的笔记,也是你提升的重要渠道
discussion 关于该项目的一些讨论,另一条提升你模型的途径
leaderboard 主要是一个各队伍结果的排行榜
rules 一些规矩

其中,对于初学者来说,要完整实现一遍流程,最重要的是我加粗的两条,即overview与data。

2.3了解项目

在这里插入图片描述
你可以去overview上仔细查看这个项目,或者一句话总结这个项目:通过乘客身上诸如性别、年龄等多个特征来对乘客是否在泰坦尼克事件中存活做出预测

3. 数据导入与预处理

数据导入
进入data栏准备下载数据:链接
在上述页面可以看到数据概览,向下翻就能找到数据下载的方法,如图:
图1这里的数据略有不同,可以看到三个文件:
第一个文件为我们提供了最后提交模型预测结果文件的模板
test.csv文件给出了不包含标签列的测试数据(也就是说不包含Survival数据)
train.csv文件就是我们用来训练模型的数据。

登录账号,就可以下载了(可能会需要科学手段)

加载好数据后,就正式开始我们的kaggle之旅!!

在对数据有了初步认识之后,开始进行预处理:

数据预处理
我们直接选定[‘Pclass’, ‘Sex’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’]等指标来对存活结果进行预测(你当然可以做更多的工作来选择合适的特征,这里为了简单直接选定特征),然后,我们这里将test数据与train数据都进行处理:用0和1代替男女,用均值填充缺失数据。

#读取训练数据集
df_total = pd.read_csv('train.csv', index_col='PassengerId')
#选取指定特征
df_total = df_total[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]
#one-hot处理
df_total['Sex'] = df_total['
  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值