【Kaggle从零开始】titanic简单生存预测

本文介绍了如何在Kaggle上进行Titanic生存预测,从了解数据到预处理,再到模型选择和预测,详细讲解了初学者的基本步骤。通过观察数据、分析非数值特征、应用SVM模型,实现了超过随机猜测准确率的预测结果。
摘要由CSDN通过智能技术生成

PS(写到一半发现把博客写成了在学校的报告的模样…)

相信看到这篇博客的读者们应该知道kaggle是什么,不然也不会看到我这篇博客。

titanic作为kaggle官方入门题目,其地位堪比a+b problem在各大算法竞赛(*cpc)中的地位。
废话不多说,我们直接开始。

首先,我们可以观看一下小姐姐的视频(官方教程),就是下面这个。
在这里插入图片描述
或者,我们可以直接开始。

将data下载下来后,阅读数据说明。(就是下图这个)
在这里插入图片描述
然后,观察一下提交的格式。(也就是下图这个)
在这里插入图片描述
查看完这些信息后,我们就可以开始做题了。
做题过程分为三部分:

  1. 读取数据,观察数据的格式。
  2. 分析数据,对数据进行处理。
  3. 选择合适的模型进行预测。

第一部分:读取数据,观察数据的格式
在这里插入图片描述
通过上图可以发现,数据中有不同类型的数据。

第二部分:分析数据,对数据进行处理

通过上图可以发现,训练集中有结果,也就是Survived列,(下文中称其为y值),将y抽取出来作为结果集。
训练集中还有不是数值类型的数据,比如Name, Cabin, Ticket, Sex等等 ,需要对他们进行分析,并且处理,简单举个例子,对Sex这类数据,用数据标号就可以,对于Name这种数据,可以观察其称呼,将称呼抽取出,或者将名称长度做成新的属性。

第三部分:选择合适的模型进行预测
在这里插入图片描述
因为这个是入门题目,所以我们就用最简单的方法进行分类,直接用sklearn中的SVM对数据进行fit并预测。

最后提交数据即可。
在这里插入图片描述
发现直接随机的结果有43%的正确率,随便写的预测模型有59%的正确率。

以上就是kaggle入门的最简单的教程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值