泰坦尼克号项目数据可在kaggle上免费下载。
一、分析目的:探索泰坦尼克号乘客存活影响因素
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib notebook
plt.rcParams['font.sans-serif'] = ['FangSong']
plt.rcParams['axes.unicode_minus'] = False
data = pd.read_csv('titanic_data.csv')
data.head()
二、分析思路
我们的目的是要探寻乘客存活因素。观察上面的表头,可大致判断乘客的幸存与否与名字和上船地点应该没有关系。所以我们探寻的应该是:
1、探索舱室等级与存活率的关系
2、探索性别与存活率的关系
3、探索年龄与存活率的关系
4、探索兄弟姐妹/配偶数量与存活率的关系
5、探索父母/小孩数量与存活率的关系
6、探索票价与存活率的关系
三、数据准备与处理
data.info()
data.isnull().sum()