机器学习项目 - 泰坦尼克号乘客生还率

最新推荐文章于 2024-04-03 20:34:32 发布

1990Scarlett

最新推荐文章于 2024-04-03 20:34:32 发布

阅读量710

点赞数

分类专栏：机器学习项目

本文链接：https://blog.csdn.net/chuan403082010/article/details/86031557

版权

本文介绍了使用机器学习预测泰坦尼克号乘客生还率的项目，通过探索数据，计算准确率，从单一特征预测到多个特征结合，逐步提升预测模型的准确率。项目涉及性别、年龄、社会阶层等因素，最终实现超过80%的预测准确率。

摘要由CSDN通过智能技术生成

项目 0: 预测泰坦尼克号乘客生还率

1912年，泰坦尼克号在第一次航行中就与冰山相撞沉没，导致了大部分乘客和船员身亡。在这个入门项目中，我们将探索部分泰坦尼克号旅客名单，来确定哪些特征可以最好地预测一个人是否会生还。为了完成这个项目，你将需要实现几个基于条件的预测并回答下面的问题。我们将根据代码的完成度和对问题的解答来对你提交的项目的进行评估。

了解数据¶

# 检查你的Python版本
from sys import version_info
if version_info.major != 2 and version_info.minor != 7:
    raise Exception('请使用Python 2.7来完成此项目')

import numpy as np
import pandas as pd

# 数据可视化代码
from titanic_visualizations import 
# 数据可视化代码
from titanic_visualizations import survival_stats
from IPython.display import display
%matplotlib inline

# 加载数据集
in_file = 'titanic_data.csv'
full_data = pd.read_csv(in_file)

# 显示数据列表中的前几项乘客数据
display(full_data.head())

从泰坦尼克号的数据样本中，我们可以看到船上每位旅客的特征

Survived：是否存活（0代表否，1代表是）
Pclass：社会阶级（1代表上层阶级，2代表中层阶级，3代表底层阶级）
Name：船上乘客的名字
Sex：船上乘客的性别
Age:船上乘客的年龄（可能存在 NaN）
SibSp：乘客在船上的兄弟姐妹和配偶的数量
Parch：乘客在船上的父母以及小孩的数量
Ticket：乘客船票的编号
Fare：乘客为船票支付的费用
Cabin：乘客所在船舱的编号（可能存在 NaN）
Embarked：乘客上船的港口（C 代表从 Cherbourg 登船，Q 代表从 Queenstown 登船，S 代表从 Southampton 登船）

因为我们感兴趣的是每个乘客或船员是否在事故中活了下来。可以将 Survived 这一特征从这个数据集移除，并且用一个单独的变量 outcomes 来存储。它也做为我们要预测的目标。

运行该代码，从数据集中移除 Survived 这个特征，并将它存储在变量 outcomes 中。

# 从数据集中移除 'Survived' 这个特征，并将它存储在一个新的变量中。
outcomes = full_data['Survived']
data = full_data.drop('Survived', axis = 1)

# 显示已移除 'Survived' 特征的数据集
display(data.head())

PassengerId	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	3	Braund, Mr. Owen Harris

最低0.47元/天解锁文章

1990Scarlett

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习项目 - 泰坦尼克号乘客生还率

项目 0: 预测泰坦尼克号乘客生还率1912年，泰坦尼克号在第一次航行中就与冰山相撞沉没，导致了大部分乘客和船员身亡。在这个入门项目中，我们将探索部分泰坦尼克号旅客名单，来确定哪些特征可以最好地预测一个人是否会生还。为了完成这个项目，你将需要实现几个基于条件的预测并回答下面的问题。我们将根据代码的完成度和对问题的解答来对你提交的项目的进行评估。了解数据¶# 检查你的Python版本...
复制链接

扫一扫

专栏目录