我的难题（基于分析泰坦尼克号事件）

最新推荐文章于 2023-03-14 12:13:56 发布

DanownWang

最新推荐文章于 2023-03-14 12:13:56 发布

阅读量496

点赞数

分类专栏：我的难题文章标签：我的难题

本文链接：https://blog.csdn.net/Danown/article/details/103303195

版权

我的难题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

根据一些共有的值对行分组
按照乘客的性别和是否生存进行分组

df.groupby(['survived','sex'])[passengerID].count()

删除某行因为缺失了年龄值的人

df.dropna(subset=['Age'])

根据条件语句来选择行
选择泰坦尼克号上所有女性的数据
or 多个条件选择行
选择泰坦尼克号上所有年龄大于或等于65的女性数据

df(df['Sex'] == 'female')
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]

判断船舱等级是否和存活率有关，可以用皮尔森相关corr

df['Pclass'].corr(df['Survived'])

探究生存率和年龄的关系时采用scatter散点图

plt.scatter(df.Survived,df.Age)
plt.ylabel('年龄')
plt.grid(b=True,which='major',axis='y')
#grid是否显示网格线，默认which='major'，axis='y'表示只显示y轴网格线
plt.title('按年龄看生存率(1为生存)')

查看各个港口获救情况

survived_1 = df.Embarked[df.Survived==0].value_counts()
survived_0 = df.Embarked[df.Survived==1].value_counts()
df1=pd.DataFrame({'获救'：survived_1,'未获救':survived_0})
df1.plot(kind='bar',stacked=True)
plt.xlabel('登陆港口')
plt.ylabel('人数')

基于家庭成员规模和性别绘制点图

df['family_size']=df['Sibsp']+df['Parch'] #创建新列
axes=sns.pointplot('family_size',
         'survived',
         hue='Sex',
         data=df)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DanownWang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我的难题（基于分析泰坦尼克号事件）

标题
复制链接

扫一扫

专栏目录

kaggle--Titanic问题

NP_hard的博客

11-03

325

文章目录数据探索数据处理特征工程数据统计与分析模型比较调参模型性能度量查看模型的统计学指标绘制混淆矩阵总结算是记录一次完整的数据挖掘过程吧数据探索首先我们导入一些实验中需要的包 import pandas as pd import numpy as np from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process

泰坦尼克号问题

hello_zybwl的博客

02-18

430

参与评论您还未登录，请先登录后发表或查看评论

Kaggle:Titanic问题

icepoint的博客

08-06

2333

Titanic问题学习

moluchase的专栏

07-02

356

我的第一篇写机器学习的博客目前水平：只是花了三个星期把统计学习方法看完推导了一遍目的：仅仅是想着熟悉一下统计学习方法中算法的用处，了解机器学习的一些比赛，更好的明白学习的方向结果：熟悉了数据的处理与分析流程，如何分离特征，但是关于调参数及优化这块没学习到感想：理论和实践还是差距很大的，明显自己完成这些比赛还需要一些过渡，否则很难往前走；需要看机器学习的一些实战的书 kaggle官

Titanic 预测问题

西岸贤

07-28

2087

本文的主要内容是 Titanic 预测问题，文中包括数据集介绍、实验环境配置、实验过程、实验代码以及实验结果这几个部分，该实验采用了支持向量机(SVM)、随机森林算法(RFC)和反向传播算法(BP，也称为BP神经网络)，通过对乘客信息的分析，了解具备哪些特征的乘客更容易存活，建立机器学习模型并预测乘客的生还情况。...

基于简单模型KNN——泰坦尼克号获救分析

12-20

在本案例中，我们将探讨如何使用基于简单模型的K近邻算法（KNN）来分析泰坦尼克号上的乘客生存情况。首先，我们从Kaggle数据集中获取了1309名乘客的数据，其中891人的存活状况是已知的（存储在train.csv中），剩下的...

泰坦尼克号数据分析报告

最新发布

08-18

泰坦尼克号是一艘著名的豪华客轮，在其处女航中...在这个项目中，我们将基于泰坦尼克号数据集探索一个基于机器学习的问题，该数据集包含有关乘客的信息，如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。

泰坦尼克号生存分析PPT+代码

05-23

【泰坦尼克号生存分析PPT+代码】项目是一个典型的基于Python的数据分析案例，主要涉及机器学习算法在预测乘客在泰坦尼克号沉船事件中生存情况的应用。在这个项目中，我们将深入探讨如何利用Python库进行数据预处理、...

基于Python的泰坦尼克号游客生存预测

03-01

这是基于Python语言的泰坦尼克号游客生存预测，含源代码加数据集，已经在博客中记录与讲解，欢迎大家阅读博客学习交流，另外，主页专栏“Python从入门到人工智能”，含有人工智能&深度学习&图神经网络&知识图谱等...

基于泰坦尼克号数据的分析与建模样例1

08-03

《基于泰坦尼克号数据的分析与建模样例1》本文主要探讨了如何利用泰坦尼克号的数据进行深度分析并构建分类模型。泰坦尼克号数据集包含了乘客的生存状态、船舱等级、性别、年龄等多个特征，是数据挖掘和机器学习的...

用决策树分析泰坦尼克号生存

MR_Trustin的博客

07-23

1629

一）前言上一篇文章将了决策树分类的原理以及参数的分析，这篇就用用决策树分析泰坦尼克号生存情况。上一篇地址： https://blog.csdn.net/MR_Trustin/article/details/96886157 二）代码以及分析数据来源于kaggle，地址是https://www.kaggle.com/c/titanic #导入相关模块 %matplotlib inline im...

泰坦尼克事件的生还研究

Data Story

04-24

2317

这是我第一次记录我学习数据科学的心路历程。让我们从最入基础的kaggle比赛说起吧。在这个比赛里，我们的目标是利用已知船上乘客的信息（比性格，年龄，舱位等级），预测他们的生还。 Translated letter reveals first hand account of the “unforgettable scenes where horror mixed with sublime hero

【机器学习实战】基于python对泰坦尼克幸存者进行数据分析与预测

复杂网络的博客

03-14

9893

在本文中，从数据的角度出发对泰坦尼克幸存者进行分析与预测，适合零基础入门数据分析并了解建模过程的朋友。

tableau篇之泰坦尼克号年龄分布表格化分析

优质资源分享、软件、动漫、电影

03-17

2101

分析目的：分析泰坦尼克号数据中不同舱位、不同性别的平均年龄分布，以表格的形式展示出来。分析结果展示： ...

泰坦尼克号Titanic生存分析（SPSS、R）

m0_46352099的博客

06-18

5889

目录泰坦尼克号Titanic生存分析查看数据基本信息分析查看其它因子下的存活率情况：缺失值处理相关性分析建立Logistic模型模型改进 泰坦尼克号Titanic生存分析记录使用Titanic数据进行分析的过程（新手一个） - 简单介绍Logistic回归 Logistic回归(Logistic regression，对数线性模型) 与多重线性回归有很多相同之处，最大区别就在于他们之间的因变量不同，它将线性回归结果，通过Logistic函数生成概率，从而进行分类。尽管Logistic函数是非线性的（S

数据分析之泰坦尼克号案例

热门推荐

snow_maple521的博客

09-16

2万+

泰坦尼克号数据处理【1】实验目录 1 解释步骤 2 处理数据 3 数据可视化 4 修改数据 5 训练模型【2】实验步骤 1 解释步骤 * 识别和定义问题 * 获取训练和测试数据 * 质疑，准备，清理数据 * 分析，识别模式并探索数据 * 建模，预测并解决问题 * 可视化，报告并提出问题解决步骤和最终解决方案 * 提供并提交结果首先了解一下问题的定义...

菜鸟的Kaggle之路（1） Titanic问题的初步分析

摸不着脑子的博客

02-06

671

今天开始，又一个菜鸟开始走上了自己的Kaggle之路，以练代学，边学边练，不会再查。基础：coursera 机器学习正在看：deeplearning.ai课程和西瓜书今天我主要先熟悉了一下pandas和matplotlib的使用，用于观察数据首先引入（在notebook环境下使用matplotlib需要加一行%matplotlib inline才能正常显示）注：同时matplotlib不支...

泰坦尼克号预测生还案例的分析（一）

ZengHaihong的博客

11-17

1万+

最近在学习机器学习，有幸可以研究一下Kaggle竞赛的“泰坦尼克号预测生还”的案例。首先说明这里面的代码并非全部为本人所打，只是在从中学习到了很多东西，一和大家分享，二来整理知识。先分享下的数据文件：百度网盘链接：http://pan.baidu.com/s/1i4OtRaX 密码：rqcx1. 导入数据：import os import pandas as pd #导入数据分析的利器pandas

利用R语言对泰坦尼克号沉没事件幸存者的数据分析与预测

xpexia的博客

01-21

1万+

题外话：在文章正式开始之前，我还是想先写一点题外话，一是为了引出写作这篇博客的目的，二则是希望能够记录下现在的所思所想为以后留个纪念。首先介绍一下自己，毕业3年多的小硕一枚，大学期间学的专业是高分子材料，毕业后也一直在从事化工行业方面的工作。最近由于公司变动，再加上本身自己对于未来规划以及个人兴趣的原因，使我产生了转行的想法。而数据分析作为我在学生时代就已经有所接触的方向，确实对我有着很大的吸引，

基于泰坦尼克号生还数据的Spark数据处理分析

06-12

基于泰坦尼克号生还数据的Spark数据处理分析可以分为以下步骤： 1. 数据获取和清洗：获取泰坦尼克号生还数据，清洗掉无效数据和缺失值。 2. 数据预处理：对数据进行特征提取、转换和标准化等预处理操作，以便后续...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交