Python学习-泰坦尼克号

本文使用Python分析泰坦尼克号数据,探讨性别、年龄、仓位与存活率的关系,通过随机森林模型进行预测,最终得到0.822的预测准确率。
摘要由CSDN通过智能技术生成

泰坦尼克号的名单包括统计到的人员名单,包括人员的ID,是否幸存,仓位(1,2,3以及无座),姓名,性别,年龄等信息,截图如下:

本文将用Python对此样本数据进行一些简单的处理及应用。

首先用Spyder载入了泰坦尼克号的CSV数据文件,并打印了一下列名与样本个体数

train = pd.read_csv('D:/PythonPractice/titanic/train.csv')
print(train.columns.values.tolist()
print(len(train))

['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

891

从数据上并不能看出性别年龄等特征与是否幸存的关系。现在利用透视表查看仓位等级、性别与存活率的关系:

class_survived= train.pivot_table(index="Pclass",values="Survived")#仓位等级与存活率
sex_survived=train.pivot_table(index="Sex",values="Survived")#性别与存活率
    Survived
Pclass          
1       0.629630
2       0.472826
3       0.242363
        Survived
Sex             
female  0.742038

male    0.188908

这里发现仓位等级越高存活率越大,并且女性的存活率要远高于男性。

接下来利用绘图工具matplot的柱形图简单统计了一下年龄与存活率的关系:

age=train["Age"]
less5 =train[age
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值