Python 机器学习：泰坦尼克号获救预测_Titanic

最新推荐文章于 2024-04-15 00:30:00 发布

EarlZed

最新推荐文章于 2024-04-15 00:30:00 发布

阅读量1.9k

点赞数 4

分类专栏：数据分析 Python学习机器学习文章标签：机器学习 Kaggle python 数据分析数据可视化

本文链接：https://blog.csdn.net/baidu_34454863/article/details/101031649

版权

问题

数据来源于Kaggle，通过一组列有泰坦尼克号灾难幸存者或幸存者的训练样本集，我们的模型能否基于不包含幸存者信息的给定测试数据集确定这些测试数据集中的乘客是否幸存。

在这里插入图片描述

将数据分为不同类别，分别为类别型数据和数字型数据

关联：各个特征与存货的相关性是如何
填充缺失值：对 Age 和 Embarked 进行缺失值填充
清洗、处理、剔除字段：Ticket由于高重复率，Cabin仓位空值过多，PassengerId与存活无关，Name数据不标准，都需要处理后进行剔除
添加字段：我们可以根据 Parch 和 SibSp 创造一个关于家庭成员数量的字段；可以从名字中提取特征形成新特征；可以从 Age 和 Fare 创造分层，使数据更具有机器学习意义
分类：猜测女性(Sex = female)、儿童(Age<自定义值)、上层人士(Pclass=1)更有可能存活

在这里插入图片描述
Pclass 等级越低，存活率越低

女性存活率远高于男性

SibSp与存活率很分散，可能需要进行重构新字段

通过对以上数据分析，可以得到以下决策

结合多个特征来识别相关性

关注