从零开始，手把手，一文kaggle竞赛速度入门！泰坦尼克

最新推荐文章于 2024-03-30 21:02:45 发布

zhengzhengzbq

最新推荐文章于 2024-03-30 21:02:45 发布

阅读量2.6k

点赞数 5

分类专栏： kaggle 文章标签：人工智能机器学习决策树数据分析 kaggle

本文链接：https://blog.csdn.net/weixin_39930243/article/details/111463943

版权

从零开始，手把手，一文kaggle竞赛速度入门！泰坦尼克

1. 前言
2. 如何开始kaggle竞赛
3. 数据导入与预处理
4. 训练决策树模型
- 4.1决策树模型
- 4.2python实现决策树
5. 提交结果
6.完整源码
7.可以改进的地方
8.贡献者介绍

1. 前言

网上并不缺乏kaggle竞赛的教程，但对于相当一部分人来说，在跟着进行第一个竞赛的过程中，就逐渐放弃了。笔者也是在初次竞赛时，遇到了很多的麻烦，在跟着大佬一步步操作的时候，困难的去理解每一步的意义，这给了我很大的阻力。

在后面的学习生活中，我逐渐明白了，对于入门来说，走完一个完整的流程是最重要和基础的，至于优化，那是后面的事。

基于此，本文力求用最少的代码，手把手，图文结合的带你去进行一次完整的kaggle竞赛体验，从进入网页，到提交预测获取成绩。

我相信推开了门，自然有各种方法去寻找宝藏，当然，我们后续，也会有内容更丰富的泰坦尼克竞赛案例推出。

2. 如何开始kaggle竞赛

2.1进入网站注册账号

kaggle
进入kaggle官网（最好有vpn），首先点击右上角register注册账号

在这里插入图片描述

2.2进入到比赛界面

注册完账号后，直接搜索titanic进入比赛主页面
在这里插入图片描述
接着进入到比赛的主页面

其中右上角的join competition可以参加比赛，左侧红线上的栏目分别是：
overview 对于该项目的一些大致介绍
data 该项目的数据
notebook 前人的笔记，也是你提升的重要渠道
discussion 关于该项目的一些讨论，另一条提升你模型的途径
leaderboard 主要是一个各队伍结果的排行榜
rules 一些规矩

其中，对于初学者来说，要完整实现一遍流程，最重要的是我加粗的两条，即overview与data。

2.3了解项目

在这里插入图片描述
你可以去overview上仔细查看这个项目，或者一句话总结这个项目：通过乘客身上诸如性别、年龄等多个特征来对乘客是否在泰坦尼克事件中存活做出预测

3. 数据导入与预处理

数据导入
进入data栏准备下载数据：链接
在上述页面可以看到数据概览，向下翻就能找到数据下载的方法，如图：
这里的数据略有不同，可以看到三个文件：
第一个文件为我们提供了最后提交模型预测结果文件的模板
test.csv文件给出了不包含标签列的测试数据（也就是说不包含Survival数据）
train.csv文件就是我们用来训练模型的数据。

登录账号，就可以下载了（可能会需要科学手段）

加载好数据后，就正式开始我们的kaggle之旅！！

在对数据有了初步认识之后，开始进行预处理：

数据预处理
我们直接选定[‘Pclass’, ‘Sex’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’]等指标来对存活结果进行预测（你当然可以做更多的工作来选择合适的特征，这里为了简单直接选定特征），然后，我们这里将test数据与train数据都进行处理：用0和1代替男女，用均值填充缺失数据。

#读取训练数据集
df_total = pd.read_csv('train.csv', index_col='PassengerId')
#选取指定特征
df_total = df_total[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]
#one-hot处理
df_total['Sex'] = df_total['

最低0.47元/天解锁文章

zhengzhengzbq

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
5
评论
从零开始，手把手，一文kaggle竞赛速度入门！泰坦尼克

从零开始，手把手，一文kaggle竞赛速度入门！泰坦尼克1. 前言2. 如何开始kaggle竞赛2.1进入网站注册账号2.2进入到比赛界面2.3了解项目2.4下载数据3. 数据导入与预处理4. 训练决策树模型4.1决策树模型4.2python实现决策树5. 提交结果6.完整源码7.可以改进的地方8.贡献者介绍1. 前言网上并不缺乏kaggle竞赛的教程，但对于相当一部分人来说，在跟着进行第一个竞赛的过程中，就逐渐放弃了。笔者也是在初次竞赛时，遇到了很多的麻烦，在跟着大佬一步步操作的时候，困难的去理解每
复制链接

扫一扫