泰坦尼克号的名单包括统计到的人员名单,包括人员的ID,是否幸存,仓位(1,2,3以及无座),姓名,性别,年龄等信息,截图如下:
本文将用Python对此样本数据进行一些简单的处理及应用。
首先用Spyder载入了泰坦尼克号的CSV数据文件,并打印了一下列名与样本个体数
train = pd.read_csv('D:/PythonPractice/titanic/train.csv')
print(train.columns.values.tolist()
print(len(train))
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
891
从数据上并不能看出性别年龄等特征与是否幸存的关系。现在利用透视表查看仓位等级、性别与存活率的关系:
class_survived= train.pivot_table(index="Pclass",values="Survived")#仓位等级与存活率
sex_survived=train.pivot_table(index="Sex",values="Survived")#性别与存活率
SurvivedPclass
1 0.629630
2 0.472826
3 0.242363
Survived
Sex
female 0.742038
male 0.188908
这里发现仓位等级越高存活率越大,并且女性的存活率要远高于男性。
接下来利用绘图工具matplot的柱形图简单统计了一下年龄与存活率的关系:
age=train["Age"]
less5 =train[age