泰坦尼克号数据集_python_泰坦尼克号数据分析报告

weixin_39602891

于 2020-12-05 11:42:08 发布

阅读量1k

点赞数

文章标签：泰坦尼克号数据集

泰坦尼克号数据可视化分析报告

1. 提出问题

泰坦尼克号作为一部感人至深的电影流传至今，作为数据分析领域的一员，也站在数据分析的角度对其进行一些思考和分析，究竟什么样的人在泰坦尼克号更容易生还？

2.理解数据

2.1 采集数据

从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目

2.2 导入数据

import

2.3 查看数据集信息

print

由上面信息可看出，数据集共有1309行，其中Survived，Age，Fare，Cabin，Embarked 5个字段有缺失值，Cabin缺失率最高。

3. 数据清洗

3.1 数据预处理(缺失值处理)

缺失值常见处理方式：数值类型用平均值替代，分类数据用最常见类别替代或用U(Unkonwn) 替代

print

3.2 特征工程

3.2.1 数据分类

数值类型：乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）
时间序列：无
分类数据：1）有直接类别的：乘客性别（Sex），登船港口（Embarked），客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱；2）字符串类型：乘客姓名（Name），客舱号（Cabin），船票编号（Ticket）

3.2.2 分类数据：直接类别型

乘客性别（Sex）

# 对性别进行0,1赋值

登船港口（Embarked）

# 使用get_dummies 对Embarked进行one-hot编码

客舱等级（Pclass）

# 使用get_dummies 对Pclass进行one-hot编码

3.2.2 分类数据：字符串类型

乘客姓名（Name）

full

客舱号（Cabin）

full

3.2.3 数值类型：同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）

建立家庭人数和家庭类别

# 同代直系+不同代直系+自己

3.2.3 特征选择

# 查看各特征的相关系数

由上可知，Survived与Mrs和Mrss正相关性，和Mr负相关性，有可能当时逃生遵守了女士优先的原则。

根据各个特征与生成情况（Survived）的相关系数大小，我们选择了这几个特征作为模型的输入：

头衔（前面所在的数据集titleDf）、客舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）

# 特征选择

4. 构建模型

4.1 建立训练数据集和测试数据集

sourceRow

4.2 选择及训练模型

# 使用逻辑回归

5. 模型评估

model

6. 方案实施

# 对预测数据集进行预测

附：可视化

柱状图

import

weixin_39602891

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
泰坦尼克号数据集_python_泰坦尼克号数据分析报告

泰坦尼克号数据可视化分析报告1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今，作为数据分析领域的一员，也站在数据分析的角度对其进行一些思考和分析，究竟什么样的人在泰坦尼克号更容易生还？2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据import 2.3 查看数据集信息print由上面信息可看出，数据集共有1309行，其中Surv...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。