一、数据来源
Titanic: Machine Learning from Disasterwww.kaggle.com泰坦尼克号的沉没是历史上最臭名昭著的海难之一。1912年4月15日,闻名于世的泰坦尼克号在她的处女航中与冰山相撞后沉没。不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡。尽管幸存有一些运气,但似乎有些人比其他人更有可能生存。在本文中,我将建立一个预测模型来预测什么样的人更有可能生存。使用旅客数据姓名,年龄,性别,社会经济阶层等。数据集共有12个变量。介绍如下:
- PassengerId:乘客ID
- Survived:是否生存,0 否,1 是
- Pclass:船票等级,1上层,2中层,3下层
- Name:名字
- Sex:性别
- Age:年龄
- SibSp:泰坦尼克号上的兄弟姐妹和配偶数
- Parch:泰坦尼克号上的父母和子女数量
- Ticket:票号
- Fare:票价
- Cabin:船舱号
- Embarked:登船港口,C =瑟堡,Q =皇后镇,S =南安普敦
二、数据清洗
读取数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
test=pd.read_csv('test.csv')
train=pd.read_csv('train.csv')
test.shape,train.shape#查看数据行列数
合并数据
dataset = train.append(test,sort=False)
看看合并后的结果,随机查看
dataset.sample(5)
查看有哪些数据存在空值
dataset.info()
Survived的空值是test集的,这个是我们要预测的结果。Age的空值比较多,Fare有一个空值,Cabin有一千多个空值,Embarked有两个空值,下面就是要处理这些空值
将Age的缺失值充为平均值
dataset.Age = dataset.Age.fillna