泰坦尼克号数据集_机器学习—泰坦尼克号生存预测

最新推荐文章于 2024-08-05 10:35:15 发布

weixin_39585886

最新推荐文章于 2024-08-05 10:35:15 发布

阅读量847

点赞数 1

文章标签：泰坦尼克号数据集

本文利用泰坦尼克号数据集，通过数据清洗、特征工程和逻辑回归模型，预测乘客的生存概率。数据清洗包括处理空值，如Age用平均值填充，Cabin填充为P并移除数字部分，Embarked缺失值填充为S。特征工程涉及性别编码、提取姓名头衔、同行者数量等信息。模型训练后，预测准确率达到79%，并在测试集上得分77%。

摘要由CSDN通过智能技术生成

一、数据来源

Titanic: Machine Learning from Disasterwww.kaggle.com

泰坦尼克号的沉没是历史上最臭名昭著的海难之一。1912年4月15日，闻名于世的泰坦尼克号在她的处女航中与冰山相撞后沉没。不幸的是，船上没有足够的救生艇供所有人使用，导致2224名乘客和机组人员中的1502人死亡。尽管幸存有一些运气，但似乎有些人比其他人更有可能生存。在本文中，我将建立一个预测模型来预测什么样的人更有可能生存。使用旅客数据姓名，年龄，性别，社会经济阶层等。数据集共有12个变量。介绍如下：

PassengerId：乘客ID
Survived：是否生存，0 否，1 是
Pclass：船票等级，1上层，2中层，3下层
Name：名字
Sex：性别
Age：年龄
SibSp：泰坦尼克号上的兄弟姐妹和配偶数
Parch：泰坦尼克号上的父母和子女数量
Ticket：票号
Fare：票价
Cabin：船舱号
Embarked：登船港口，C =瑟堡，Q =皇后镇，S =南安普敦

二、数据清洗

读取数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
test=pd.read_csv('test.csv')
train=pd.read_csv('train.csv')
test.shape,train.shape#查看数据行列数