【数据挖掘实战】之kaggle练习赛titanic

最新推荐文章于 2023-05-29 17:01:13 发布

messiran10

最新推荐文章于 2023-05-29 17:01:13 发布

阅读量2.1k

点赞数

分类专栏： python数据挖掘

本文链接：https://blog.csdn.net/messiran10/article/details/50704882

版权

之前基本完成了pandas基础知识的学习，现在结合实际工程实例来进一步理解巩固pandas的用法。

参考博客资料：http://www.cnblogs.com/north-north/p/4353365.html

一.读取数据

df = pd.read_csv('train.csv',header=0)

使用pandas的read_csv函数可以轻松读取csv文件的内容。在读取了数据文件之后，可以使用一些方法来大概的看看数据的一些基础情况：

如通过df.info() df.describe()等函数可以获知缺失数据的一些基本情形

二.缺失值处理

对于数据缺失值的处理方式有多种，博客中用到了三种处理方式：

使用均值或者众数代替缺失值：

1 #replace missing values with mode
2 df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values

注意dropna()函数，可以去除掉NA的数值，mode()方法是求众数

直接人为赋值：

1 #replace missing value with U0
2 df.Cabin[df.Cabin.isnull()]='U0'

利用模型来预测缺失属性的值：

 1     #choose training data to predict age
 2     age_df = df[['Age','Survived','Fare', 'Parch', 'SibSp', '

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

messiran10

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

titanic数据集_Kaggle练习赛---Titanic的分析与整理

weixin_39612653的博客

12-01

844

前言开始Kaggle练习，最先进行的当然是Kaggle的“Hello World”---预测哪些泰坦尼克的旅客幸存。自己最开始写的很乱，包括数据处理、分析、建模等。参考了Kaggle的一篇[1]再整理一遍，清晰很多。实验并没有得到一个很好的结果，但是规范了整个流程，因此写下笔记本文约1.4k字，预计阅读10分钟Titanic: Machine Learning from Disaster竞赛解决...

kaggle-titanic实战--数据挖掘实例

weixin_30901729的博客

03-07

269

kaggle是一个国外的数据挖掘竞赛平台，大家做完竞赛之后会写一些指导，因此可以通过其他人写的指导文件进行学习，kaggle传送门。其中有一个入门类的分析问题是分析Titanic号的救援问题，分析哪些因素会影响到是否被救援，首先打开Titanic这个问题的具体页面，Titanic: Machine Learning from Disaster, 先看一看overview里面的descripti...

参与评论您还未登录，请先登录后发表或查看评论

数据挖掘实战(以kaggle为例）

最新发布

qq_53183608的博客

05-29

2178

第一课主要分为以下内容进行讲述机器学习工业应用领域机器学习常用算法机器学习常用工具解决问题流程数据的处理比模型更为重要老师的博客，内容很详细数据预处理有时候可以一个feature一个feature去做特征工程模型选择模型状态评估模型融合 Bagging是一种集成学习（Ensemble Learning）的技术，全称为“Bootstrap Aggregating”。它是通过构建多个相互独立的基本模型（通常是决策树或其他分类器），然后通过对基本模型的预测结果

kaggle实战：Titanic

oax_knud的博客

07-17

728

文章目录一、问题重述1.1 问题描述1.2 数据集1.3 提交格式二、问题求解：决策树一、问题重述 1.1 问题描述泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912 年 4 月 15 日，在她的初次航行期间，被广泛认为“不沉”的泰坦尼克号在与冰山相撞后沉没。不幸的是，船上的每个人都没有足够的救生艇，导致 2224 名乘客和船员中有 1502 人死亡。虽然幸存下来有一些运气因素，但似乎有些人比其他人更有可能幸存下来。在这个挑战中，我们要求您构建一个预测模型来回答这个问题：“什么样的人更有可能生存？”

Kaggle练习赛Spaceship Titantic数据探索（上）

weixin_54255111的博客

08-04

974

kaggle上的练习赛，自己对训练集数据做的一个简单的数据探索。

数据挖掘实战（一）：Kaggle竞赛经典案例剖析

weixin_33766805的博客

03-14

4011

Load Lib 在这边提一下为什么要加 import warnings warnings.filterwarnings('ignore') 主要就是为了美观，如果不加的话，warning一堆堆的，不甚整洁。 Load data 和正常的套路一样，Id的没有什么卵用但是每个数据集都喜欢加的东西，因此我们弄死它就好了。 Data Statist...

【Kaggle入门练习赛】数字识别

weixin_39655021的博客

02-04

446

本题中，输入是非常规范的矩阵，因此我看到的解法中都没有对输入做多少预处理，直接调轮子。思路主要参考https://blog.csdn.net/weixin_39655021/article/details/86748135，在数据预处理的写法上有修改。在调用CNN时，原文的keras应该是依赖于Theano的，写法上和依赖于tensorflow的框架略有不兼容，因此百度后也做了一些修改，只涉及...

Kaggle练习赛---Titanic的分析与整理

Blank_Space

06-30

1104

前言开始Kaggle练习，最先进行的当然是Kaggle的“Hello World”---“Titanic: Machine Learning from Disaster"，即预测...

Kaggle练习赛Titanic手札

moverzp的博客

10-21

2561

Kaggle练习赛Titanic手札标签： Kaggle参考资料：https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments一、Titanic练习赛介绍kaggle上面的比赛有若干种，分别是Featured，Research，Playground和101等。Featured和Research比赛可以获得奖

kaggle—Titanic_kaggle-titantic预测_

10-02

【标题】：kaggle—Titanic_kaggle-titantic预测_ 【描述】：这个项目是关于在Kaggle平台上进行的泰坦尼克号（Titanic）生存预测挑战。它涉及了完整的数据分析流程，包括数据预处理、特征工程、模型训练以及结果...

数据分析与挖掘入门练习1——kaggle比赛_Titanic: Machine Learning from Disaster

shaiguchun9503的博客

07-04

830

目录 0 摘要 1 导入包与加载数据 2 数据可视化分析 3 特征工程 4 LR初步建模与结果 5 优化方法---重新进行特征工程选特征、模型融合 6 总结 0.摘要最近利用两周多的时间准备做了一下kaggle上的第一个热门比赛，链接为Kaggle的Titanic幸存预测。这是一个基本的二分类问题，下面就这一分类问题竞赛的处理思路及代码实现，包括探索性数据分...

数据挖掘的一个例子

seawavecau的专栏

08-03

707

数据挖掘的一个例子

数据挖掘实战系列之 Kaggle 泰坦尼克号灾难（上）

徐代龙的技术专栏

05-07

5222

（一）步骤流程： #（一）目标确定：根据已有数据预测未知旅客生死 # （二）数据准备：1 数据获取，载入训练集csv，测试集csv # （三）数据清洗：补齐或抛弃缺失值，数据类型变化（字符串转数字） # （四）数据重构：根据需要重新构造数据（重组数据，构建新特性） #（五）数据分析： 1 描述性分析，画图，直观分析 2 探索性分析，机器学习模型 # （六）...

kaggle实战——titanic分析

weixin_42957905的博客

07-14

779

kaggle实战——titanic分析

数据挖掘算法和实践（二十一）：kaggle经典-职场离职率分析案例解读

叶子叶来

01-19

7847

本节使用kaggle经典数案例一起学习数据挖掘流程和工具使用，使用决策树和随机森林预测员工离职率，帮助人事部门理解员工为何离职, 预测员工离职的可能性，数据来源: kaggle数据集地址使用jupyterlab，能够保存中间结果并且流程较清晰，小数据集可以考虑使用，但从模块化思想来看可以用VsCode和其他工具，一如既往首先引入需要的包，这里plot和seaborn都引入了，plot更偏底层可以定制化作图，seaborn作图更方便和炫酷但定制化作图能力弱，想了解seaborn作图包可以参照之前

【干货】Kaggle 数据挖掘比赛经验分享

u014765410的博客

03-27

448

参考博文：【干货】Kaggle 数据挖掘比赛经验分享

数据分析精选案例：3行代码上榜Kaggle学生评估赛

shujufenxianli的博客

01-19

1232

现在kaggle学生写作评估赛举办得如火如荼，下面我们来试试如何3行代码上榜kaggle。

数据挖掘入门之Titanic

weixin_42028608的博客

12-30

434

数据挖掘经验应用机器学习，千万不要上来就想做完美的模型，要先撸一个baseline的model出来，再进行分析提高。【后续分析可能包括模型的过/欠拟合、我们模型预测的bad case的产生原因等等，针对去分析】大神们的experience： 1.【对数据的认识太重要了！】 2.【数据中的特殊点/离群点的分析和处理太重要了！】 3.【特征工程(feature engineering)太重要了！...

R语言实战：Kaggle自行车竞赛数据挖掘关键特征分析与算法比较

在《数据挖掘：R语言实战》中的kaggle-bike-competition项目中，主要任务是针对提供的kaggle_bike_competition数据集进行深入的数据分析和机器学习实践。该数据集包含了多个变量，如日期时间（datetime）、季节...